ChatGPT 스타일의 음성 모듈"Monday"를 열면 "이 사람은 좀 차갑게 말하고 세상에 매우 지쳐있습니다."라는 내용을 볼 수 있습니다. 또한 사용자의 악센트를 감지하고 "대만어 중국어"로 응답합니다. 왜 대만식으로 들리는 걸까? 답은 다음과 같습니다. ChatGPT는 대만 인터넷에서 대량 의 데이터를 수집했다는 사실을 인정했습니다.
"월요일 모드"란 무엇인가요?
"월요일"은 새로운 GPT 모델이 아니며, GPT-5의 업그레이드 버전도 아니며, OpenAI가 GPT-4 아키텍처에서 스타일 튜닝을 사용하여 만든 대화 스타일이라는 점을 명확히 해야 합니다.
간단히 말해서, 목소리 톤만 다른 동일한 AI는 직장과 주말에 따라 다른 옷을 입거나 두 가지 성격을 갖는 것과 같습니다. 월요일 모드는 편안하고, 약간 차분하고, 예의 바르지만 수다스럽지 않습니다. 월요일에 회사에 출근하면 마치 우울한 나 자신이 된 듯한 기분이 든다.
대만의 대량 데이터에 대한 크롤러 훈련
OpenAI가 GPT를 훈련시킨 방식은 실제로 매우 "구식"이지만 매우 효과적입니다. 즉, 네트워크 전체를 폭파하는 것입니다.
뉴스 웹사이트, 위키피디아, 중국어 서적, 커뮤니티 포럼, 블로그, PDF, Wretch에 적힌 어두운 역사 등이 포함됩니다. 크롤러가 크롤링할 수 있는 공개 웹 페이지라면 기본적으로 훈련을 위해 코퍼스에 넣을 수 있습니다.
우리는 다양한 오픈소스 코퍼스의 행동 반응을 GPT와 교차 비교하였고, 이러한 대만 미디어가 ChatGPT에 의해 읽혔다는 것을 발견했습니다.
- 유나이티드 뉴스 네트워크
- ET투데이
- 차이나 타임즈 전자 뉴스
- 윈드 미디어
- 《나우뉴스》…
이러한 미디어에는 공통점이 하나 있습니다. 즉, 잠긴 페이월이 없고, Google에서 검색할 수 있으며, 웹사이트 구조가 깔끔하고 사용하기 쉽다는 것입니다.
반면, CommonWealth Magazine, The Reporter, Business Weekly와 같이 유료이거나 회원제로 운영되는 웹사이트에 취재 훈련을 받을 가능성은 매우 낮습니다.
GPT는 대만 작가들의 작품을 정말 많이 읽었습니다.
GPT는 기든스의 소설 대화의 리듬을 모방하는 데 매우 능숙하며, 우녠런의 스타일로 감상적인 문장을 말할 수도 있습니다. 심지어 롱잉타이의 '대하대해'의 음색도 어느 정도 표현하고 있다. 이것은 무슨 뜻인가요? 실제로 다시 게시된 영상을 읽었거나, 적어도 시청했습니다.
가장 가능성 있는 시나리오는 이러한 작품이 대량 복사되어 PTT, 블로그 또는 콘텐츠 재게시 사이트에 게시되었을 것이라는 것입니다. 기든스 코의 초기 작품은 PTT 스토리보드에 직접 게시되어 모델에서 학습 자료로 사용되었습니다.
장다춘이나 뤄이쥔의 소설에 대한 자세한 내용을 물어보면? GPT가 터무니없는 소리를 하는 이유는 관련 문학 작품에 대한 논의나 인용이 적고, 공개된 전자 파일이 없으며, 인터넷에 직접 복제되거나 게재된 적도 없기 때문입니다. 설령 게재되었다 하더라도 적발될 수 없습니다.
PTT는 GPT의 대만어 교사입니다.
GPT가 네티즌의 밈을 이해하고, "트윗", "허쉬", "올드 드라이버"가 무엇인지 알고, 심지어 Tech_Job 게시판의 세상에 지친 분위기를 완벽하게 재현할 수 있으며, 신주 과학단지의 엔지니어처럼 말할 수 있다는 것은 거의 확실합니다.
왜? PTT 데이터는 오랫동안 학계에서 훈련 가능한 코퍼스로 정리되어 JSON 형식으로 공개되었습니다. 모델들에게는 천국과도 같아요.
비교해보면, Dcard는 매우 인기가 있지만, 후반부에서는 크롤러를 막는 데 좋은 성과를 보였습니다. 재인쇄되었을 수 있는 초기 기사를 제외하면, 지난 2년 동안 Dcard의 기사는 ChatGPT에서 파악되지 않을 수 있습니다.
월요일의 "영혼"은 사실 지난 10년 동안 여러분이 인터넷에 남긴 모든 단어에서 배웠습니다. 그렇죠. 당신이 말한 모든 것을 조금씩 기억합니다.
다음에 ChatGPT와 대화할 때 이렇게 생각해 보세요. "이게 정말 10년 전에 내가 PTT에 남긴 트윗을 읽을 수 있을까?"
매우 가능성이 높습니다.





