ChatGPT의 글쓰기 스타일은 케냐에서 유래되었습니다.

36氪

12-22

이 기사는 기계로 번역되었습니다

원문 표시

ChatGPT의 특이한 글쓰기 스타일(흔히 인공지능 특유의 느낌이 강하다고 알려져 있음)의 원인이 밝혀졌습니다!

케냐 작가: 그들은 모두 우리에게서 배웠다.

최근 케냐의 한 작가가 쓴 "비난 글"이 해커 뉴스 인기 검색어 순위 1위를 차지했습니다.

저는 케냐 사람입니다. 제 글쓰기 스타일이 ChatGPT의 스타일과 같다는 게 아니라, ChatGPT의 글쓰기 스타일이 제 스타일과 같다는 겁니다.

클릭해 보니, 제 친구가 공들여 작성한 여러 기사가 "ChatGPT와 너무 유사하다"는 이유로 거절당했다는 사실을 알게 되었습니다.

음... 어릴 적부터 "글은 완벽한 건물과 같아야 한다"거나 "풍부한 어휘력을 보여줘야 한다"는 가르침을 받아온 그가 이제는 인공지능이 쓴 글이라고 오해받니, 이 친구는 분노를 참지 못하고 소리쳤다.

디지털 사기를 밝혀내는 데 열심인 형사 여러분께 말씀드립니다. 여러분, 케냐의 교실, 회의실, 또는 사내 팀즈 채팅방에서 흔히 볼 수 있는 화요일 풍경에 오신 것을 환영합니다. 여러분이 기계 지문이라고 생각하는 것들은 사실 우리 교육의 화석 기록입니다 .

더욱이, 많은 AI 모델 제조업체들이 인건비 절감을 위해 RLHF와 같은 작업을 아프리카인들에게 외주화한다는 보고가 오랫동안 있어왔으며, 따라서 많은 모델 용어 또한 아프리카에 편향되어 있을 가능성이 높습니다.

그러므로 우리는 ChatGPT가 실제로 케냐로부터 작문 기술을 "훔쳤을" 가능성이 있다고 의심할 만한 이유가 있습니다.

잠깐 살펴볼까요!

"ChatGPT가 의도치 않게 우리를 모방하고 있습니다."

무슨 일이 있었는지 알려드리겠습니다.

케냐 출신의 마커스 올랑(이하 마커스)은 최근 한 게시글에서 올해 초 첫 번째 답변을 받은 이후 자신이 "인공지능이 아님을 증명해야 하는" 딜레마에 빠졌다고 불만을 토로했습니다. 당시 의뢰인의 답변은 다음과 같았습니다.

글솜씨는 훌륭하고 논리도 탄탄한데… 좀 더 "인간적인" 어조로 다시 써보실 수 있을까요? 지금은 ChatGPT가 쓴 글처럼 너무 비슷하게 느껴져요.

게다가 그건 그뿐만이 아니었습니다. 그의 작가 친구들 중 상당수도 비슷한 피드백을 받았습니다.

샤오마는 자신의 글과 챗GPT의 글을 꼼꼼히 비교해본 후, 마침내 한숨을 쉬며 깨달았다 . "있잖아, 우리 글쓰는 스타일이 정말 챗GPT랑 비슷하구나 ."

어떤 의미에서는 비난하는 사람이 완전히 틀린 말은 아닙니다. 제 글쓰기 스타일이 대규모 언어 모델의 결과물과 어느 정도 유사하다는 것은 사실입니다.
우리 모두는 잘 짜여지고 균형 잡힌 문장을 사용하는 경향이 있습니다. 논리적인 흐름을 위해 연결어를 사용하는 것도 좋아합니다. 그리고 때때로 (지금 생각해보면 자업자득인 증거처럼 보이지만) 관련 있는 아이디어를 연결하기 위해 하이픈, 세미콜론, 대시를 사용하여 마침표보다 더 세련되게 표현하기도 합니다.

하지만 샤오마의 의견은 다음과 같습니다.

아이러니하게도 이러한 아이러니는 우리 조상들의 얼굴에 의미심장한 미소를 짓게 했을지도 모릅니다.

그는 자신의 글이 ChatGPT의 글과 유사해서가 아니라, ChatGPT가 의도치 않게 그들을 모방했다는 것이라고 주장했다. 즉, ChatGPT는 특히 케냐와 같은 남반구 지역의 엄격한 교육 시스템에 의해 "단련된" 세대, 그리고 이전 세대의 사람들을 모방했다는 것이다.

샤오마는 어린 시절부터 글쓰기 교육에서 기준과 신중한 단어 선택, 문장 구조를 강조받았다(도대체 누구의 DNA가 바뀐 걸까?).

우리는 어릴 때부터 글은 완벽한 건축물과 같아야 한다고 배웁니다 . 서론은 기초이고, 본문은 하중을 지탱하는 벽이며, 결론은 지붕입니다. 글은 견고하고, 대칭적이며, 흠잡을 데 없어야 합니다. 우리는 논리를 구축하기 위해 "첫째, 둘째, 그리고 마지막으로"를 사용하고, 정확한 전환을 위해 "게다가, 그러나, 그리고 그러므로"를 사용하며, 어휘력을 뽐내기 위해 "훌륭한"이나 "지친"과 같은 "좋은 단어"를 사용해야 합니다.
이러한 글쓰기는 우리의 디딤돌이자 , 우리의 운명을 결정짓는 40분간의 초등학교 졸업시험(KCPE)에서 반드시 익혀야 할 생존 기술이며, 더 높은 곳으로 올라갈 수 있는 사다리입니다. 엄격하고 명확하며 설득력 있지만, 바로 그 때문에 오늘날 일부 사람들에게는 "인간미가 부족하다"는 인상을 주기도 합니다.

그리고 바로 이 시스템이 인공지능에 의해 학습되었습니다.

아이러니하게도 ChatGPT와 같은 대형 AI 모델은 방대한 양의 책, 논문, 보고서를 통해 글쓰기를 학습합니다. 이러한 텍스트 저장소에는 역사적으로 축적된 고전적이고 격식 있는 문체, 즉 우리가 모방하도록 훈련받은 바로 그 문체가 가득합니다. 따라서 AI가 "권위 있고" "신뢰할 만해 보이는" 콘텐츠를 생성할 때, 그 문체는 자연스럽게 제 교육 방식과 묘한 "쌍둥이" 효과를 만들어냅니다.

따라서 샤오마는 자신의 글쓰기 스타일이 "인공지능 같다"는 비난 대면 때 격분하며 반박했습니다.

권위적인 분위기를 풍기려던 시도는 결국 케냐 초등학교 졸업시험(KCPE)에서 영어 에세이에 A를 받은 학생처럼 들리게 되었다. 의도치 않게 영국 제국의 언어적 망령을 되살린 셈이었다.

그는 또한 기존의 일부 AI 탐지기가 유창하고 논리적으로 엄밀하며 구조가 잘 잡힌 텍스트를 AI가 생성한 것으로 잘못 태그 경향이 있다고 언급했는데, 이는 많은 비원어민 영어 사용자(특히 엄격한 정식 작문 교육을 받은 사람들)의 글쓰기 특징과 정확히 일치하여 오판의 가능성이 더 높다는 것입니다.

요약하자면, 샤오마는 자신의 경험을 바탕으로 모든 사람에게 다음과 같은 이야기를 전합니다.

역사적인 이유로 영어가 모국어가 아닌 일부 저자들의 글은 원래 기존 AI 모델의 "교재" 역할을 했지만, 이제는 AI의 광범위한 도입으로 인해 "희생양"이 되었습니다 .

이러한 관점은 네티즌들로부터도 널리 공감을 얻고 있습니다.

아이러니하게도, 감정이 풍부하고 매우 현실적으로 느껴졌음에도 불구하고, 샤오마의 게시물은 팬그램 웹사이트에서 100% AI가 생성한 것으로 판정되었습니다.

아... 리틀 호스는 아무 말도 하지 않았어. 너무 화가 나서 피를 토하고 있었거든 (도지).

아프리카인들이 RLHF를 사용하기 때문에 ChatGPT도 "delve"라는 단어를 자주 사용합니다.

비슷한 이유로 ChatGPT는 "delve" (깊이 파고들다, 탐구하다)라는 단어를 특히 좋아하는 것으로 밝혀졌습니다.

가디언지의 한 기사는 멜버른 스윈번 공과대학교의 인공지능 전문가인 제레미 응우옌이 다음과 같은 사실을 발견했다고 지적했습니다.

PubMed와 같은 전문 학술 웹사이트에서 "delve"라는 단어의 사용 빈도가 최근 몇 년 동안 10배에서 100배까지 증가했습니다 .

(PubMed는 주로 80개국 이상에서 발행되는 5,200개 이상의 생의학 저널을 색인화하며, 총 3,900만 건 이상의 논문을 포함하고 있습니다.)

이는 대량 연구자들이 ChatGPT를 활용하여 논문 작성을 돕고, 선호하는 어휘를 공식적인 학술 문서에 포함시키고 있을 가능성을 시사합니다.

이 현상은 일론 머스크와 Y Combinator 공동 창립자인 폴 그레이엄의 관심도 끌었으며, 폴 그레이엄은 다음과 같이 게시했습니다.

누군가 제게 "delve"라는 단어가 들어간 이메일을 보냈는데, 이는 그 텍스트가 AI에 의해 생성되었을 가능성을 시사합니다 (즉, 발신자가 AI를 사용하여 프로젝트 제안서를 작성하고 투자하고 싶어한다는 의미일 수도 있죠, 하하).

그레이엄이 게시물을 올린 직후, 공식 ChatGPT 계정은 해당 용어를 사용하여 공개적인 장난을 쳤고, 이는 수많은 네티즌들이 따라 하도록 부추겼습니다.

하지만 추가적인 데이터 분석 결과, "delve"는 결코 예외적인 사례가 아니라는 점이 드러났습니다.

ChatGPT가 생성한 텍스트에는 "탐험하다", "태피스트리", "유언장", "레버리지"와 같은 단어가 비정상적으로 자주 나타납니다.

가디언지는 해당 기사에서 이 미스터리의 전말을 자세히 밝혀냈다.

대규모 언어 모델을 안전하고 유용하며 제어 가능한 챗봇으로 "길들이기" 위해 기업들은 일반적으로 대량 인간 테스터를 고용하여 모델과 상호 작용하고 피드백(예: 호불호 또는 이상적인 답변 작성)을 제공하도록 합니다.

이 모델은 이러한 방대한 양의 인간 선호도 데이터를 학습하여 행동을 조정하는데, 이를 RLHF(인간 피드백 기반 강화 학습)라고 합니다.

인건비 문제로 인해 RLHF의 노동집약적인 작업은 케냐, 나이지리아와 같은 영어권 아프리카 국가에 대량 아웃소싱되었습니다.

이러한 국가에서는 "delve"와 같은 단어가 일상생활이나 학술적 영어에서 자연스럽고 표준적인 표현이기 때문에 자주 사용됩니다.

따라서 이러한 단어들은 ChatGPT에서 자연스럽게 자주 나타납니다.

그런데, 콘텐츠가 AI에 의해 생성되었는지 여부를 식별하는 데 도움이 될 만한 다른 팁이 있으면 알려주세요.

일부 네티즌들이 이미 모두에게 모범을 보였습니다.

"새끼 강아지처럼 낑낑거리는 소리", "동공이 점처럼 작아지는"... 글쎄, 대부분의 사람들은 그런 생각을 전혀 못 했을 거야 (도지).

참고 링크:

[1]https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt

[2]https://news.ycombinator.com/item?id=46273466

[3]https://x.com/JeremyNguyenPhD/status/1780580567215681644

[4]https://x.com/ChatGPTapp/status/1780721920322781447

이 글은 위챗 공식 계정 "퀀텀 비트" 의 이수이(Yishui)님이 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트