이런 건 처음 봐요!
1931년 이전에 존재했고, 학습 데이터에서 컴퓨터를 본 적이 없으며, 거의 한 세기에 걸쳐 존재했던 인공지능—
그들이 실제로 파이썬 코드를 작성했다고?!
가족 여러분, 이건 정말 공상 과학 소설이 아니에요...
해당 모델의 이름은 talkie-1930-13b입니다.
이 작전의 핵심 인물은 인공지능 연구원 닉 레빈, 토론토 대학교 부교수 데이비드 뒤베노, 그리고 GPT 시리즈의 진정한 아버지로 잘 알려진 알렉 래드퍼드 입니다.
모델의 학습 데이터에는 한 가지 엄격한 규칙이 있습니다. 1931년 1월 1일자 문자는 절대로 허용되지 않습니다!
그곳은 텔레비전이나 인터넷에 대해 전혀 알지 못했고, 세상은 1930년 12월 31일 자정에 멈춰 있는 듯했다.
하지만 그 다음에 가장 초현실적인 일이 벌어졌습니다. 팀원들은 다음과 같은 사실을 발견했습니다...
루즈벨트의 뉴딜 정책에 대해 아무것도 몰라야 할 이 인공지능이 뉴딜 정책의 법률 제정 과정에 대해 매우 논리적으로 이야기하고, 심지어 연도까지 언급하고 있다니?
더욱 놀라운 것은, 연구팀이 파이썬 프로그래밍 문제를 내자 거의 100년 전의 이 영혼이 실제로 파이썬으로 첫 줄을 작성했다는 것입니다!
컴퓨터 업계에서 이름조차 들어본 적 없는 인공지능이 한 세기에 걸쳐 코드를 작성하고 있다는 소식에 네티즌들이 들끓고 있습니다.
갑자기 영감이 떠올랐어요! 이 남자는 벌써 "시간 여행 질문 체크리스트"를 만들었고, 어서 시도해 보고 싶어 안달이 났네요.
내가 정말 깨어난 걸까? 인공지능이 정말 시간과 공간을 초월할 수 있는 걸까?
1931년 이전에 만들어진 구식 어린이용 모형입니다.
1931년 이전에 살았던 인물로, 천문학부터 지리학까지 모든 분야에 박식하고 심지어 프로그래밍까지 할 수 있었다니, 우리는 그를 면밀히 연구해야 한다.
실제로 Talkie는 130억 개의 매개변수를 가진 모델이며, 1931년 이전의 영어 텍스트 2600억 개 토큰을 기반으로 학습되었습니다.
학습 자료에는 책, 신문, 학술지, 과학 잡지 등이 포함되지만 이에 국한되지는 않습니다.
디킨스부터 마크 트웨인까지, 아인슈타인 시대의 물리학 논문부터 100년 전의 요리책과 예절 지침서까지, 모든 것이 포장되어 제공되었습니다!
이 모델의 지식 기준점으로 1930년을 선택한 이유는 중요한 의미를 지니는데, 이는 미국 저작권법에 따라 저작물이 공공 영역으로 넘어가는 경계를 나타내기 때문입니다.
그렇다면 질문은, 알렉 래드포드는 왜 이 프로젝트를 하고 싶어했을까 하는 것입니다.
사실, 래드포드와 그의 팀은 알고 싶어했습니다.
만약 모델에게 1931년 이전의 모든 영어 텍스트를 읽게 한다면, 그 모델은 어떻게 생각하고, 어떻게 대화하며, 미래를 어떻게 예측할까요?
그런데 놀랍게도, 그 팀은 실제로 몇 가지 흥미진진한 스캔들을 밝혀냈습니다. (Wow.jpg)
그 모델은 시대의 흐름에 너무 충격을 받아 어지럼증을 느끼고 쓰러졌다.
첫 번째 발견은 시대적 변화에 의해 모델이 어떻게 "충격"을 받았 는지 보여주는 그래프였다.
그 팀은 뉴욕 타임스의 '오늘의 역사' 칼럼에서 거의 5,000건의 역사적 사건을 찾아내어 모두 토키(Talkie)에 입력한 다음, 화면을 응시하며 이 남자가 각각의 사건에 대해 얼마나 "예상치 못한" 반응을 보이는지 확인했다.
그 결과는 상당히 극적인 곡선을 그렸다.
1930년 이전: 토키는 유창하게 글을 읽으며, 놀라움을 시종일관 드러낸다. (토키: 그래, 그래, 나 이런 것들 다 알아.)
1930년으로 접어든 직후, 토키의 놀라움은 서서히 커지기 시작했다. (토키: 엥? 어떻게 이런 일이 일어날 수 있지?)
1950년대~60년대: 트랜지스터와 텔레비전이 널리 보급된 시대. 토키는 놀라움을 금치 못했다. (토키: 잠깐만, 인간이 우주에 갔다고? 게다가 영화를 재생할 수 있는 움직이는 상자까지 만들었다고?)
그 후로는 마치 선(禪)적인 평화로운 마음가짐을 유지하려고 노력했어요. (대화: 어지럽고, 충격받고, 축 늘어져서 완전히 멍해진 상태였죠. 하고 싶은 대로 하세요...)
이것은 마치 "류 할머니가 그랜드 뷰 가든을 방문했을 때"처럼 질문하고, 이해하고, 받아들이는 전형적인 사례입니다.
이 모델은 파이썬도 학습했습니다.
물론, 어지럼증, 쇼크, 마비 곡선은 이 연구에서 가장 획기적인 발견은 아니었습니다. 왜냐하면 연구팀의 두 번째 발견은 바로 이것이었기 때문입니다.
컴퓨터를 본 적도 없는 인공지능이 파이썬 코드를 작성하는 법을 배웠다니!
연구 과정에서 연구팀은 토키에게 OpenAI의 HumanEval 프로그래밍 테스트 스위트 사본을 제공했습니다.
프롬프트에 몇 가지 파이썬 함수를 예시로 포함시킨 다음, Talkie가 이를 검토한 후 즉시 새로운 문제를 해결하도록 하세요. 즉, 모델이 컨텍스트에서 지식을 학습하고 적용하도록 하는 것입니다.
이번 테스트에서 연구팀은 최신 인터넷 데이터를 기반으로 학습된 talkie-web도 테스트하고 비교 선 그래프를 작성했습니다.
(검은색 선: 빈티지 LM, 회색 선: 모던 LM)
결과는 참담했습니다. 토키가 실제로 암호를 해독한 것입니다. 그는 암호화 함수에서 +5를 -5로 바꾸기만 하면 되는 간단한 작업이었고, 그 결과를 제출했습니다.
네, 글자 하나만 바뀌었지만 답은 완전히 맞습니다.
더욱이, 연구팀은 명확한 경향을 발견했습니다. 모델의 크기가 클수록 해결할 수 있는 프로그래밍 문제가 더 많아진다는 것입니다.
즉, 비록 현대적인 모델에 비해 아직 한참 뒤떨어지지만, 레트로 모델이 "아무것도 없는 상태에서 코드를 학습하는" 능력은 스케일링 법칙의 영향으로 꾸준히 향상되고 있다는 뜻입니다.
연구팀은 또한 이번 레트로 모델이 전체 AI 커뮤니티가 "LLM은 훈련 데이터를 넘어 얼마나 일반화할 수 있을까?"라는 근본적인 질문을 이해하는 데 도움이 되기를 바란다고 밝혔습니다.
1930년 모델 vs. 2026년 모델
옛말에 비교는 새로운 발견의 열쇠라고 하죠.
토키의 정확한 성능을 파악하기 위해 연구팀은 동일한 아키텍처와 해시레이트 사용하는 쌍둥이 시스템인 토키-웹-13b 를 훈련시키고 최신 인터넷 데이터를 입력했습니다.
두 모델을 다양한 표준 LLM 벤치마크에서 비교한 결과, 차이는 상당히 미미했습니다.
놀랄 것도 없이, 1930년대 유성 영화는 실제 성능 면에서 현대 영화에 비해 뒤처졌다.
하지만 연구자들이 자신들의 지식 범위를 벗어나는 주제(예: 인터넷이나 DNA 관련 주제)를 제외하자, 두 그룹 간의 격차는 절반으로 줄어들었다.
더욱 놀라운 것은 새로운 모델과 기존 모델이 핵심 언어 이해 및 수학 계산 작업에서 거의 동등한 성능을 보였다는 점입니다.
이러한 결론은 어느 정도까지는 "언어 이해"와 "산술 능력"이 얼마나 많은 현대 인터넷 콘텐츠를 읽었는지와는 무관하다는 점을 시사하기도 합니다.
연구팀은 남아있는 격차가 두 가지 주요 원인에서 비롯된다고 생각합니다. 첫째, 1930년대 신문은 스캔된 문서에서 매우 수고롭게 추출되었기 때문에 OCR 전사 품질이 너무 낮다는 것입니다 .
둘째로, 자료의 주제가 다릅니다 . 예를 들어, 오래된 신문은 기술 관련 내용은 적지만 요리 예절에 대한 내용은 많습니다.
음…거대 모델의 지능 중 가장 가치 있는 부분은 "현대 인터넷에 대해 읽어봤는지 여부"와는 별로 상관이 없을지도 모르겠네요?
(토키: 만약 내가 2026년에 태어났다면 나도 GitHub를 외울 수 있었을 텐데!)
1930년대 예절 지침서를 활용하여 AI를 챗봇 도우미로 훈련시켰습니다.
모두가 알다시피, Talkie와 같은 모델을 대화형 AI 비서로 만드는 전통적인 접근 방식은 ChatGPT와 같은 최신 명령 데이터를 사용하는 것입니다.
문제는 그렇게 할 경우 21세기의 대화 방식, 가치관, 그리고 그 시대의 다른 요소들이 1930년대 모델에 다시 주입될 것이라는 점입니다.
(대화: 저는 마침내 중화민국 대통령이 되었고, 당신의 지시에 따라 곧바로 "아기들"이라고 말하기 시작했습니다...)
팀의 해결책은 천재적인 발상이라고 할 수 있다.
그들은 1930년 이전의 기록 보관소로 직접 가서 훈련 데이터 세트를 찾아냈습니다.
여기에는 사람들이 적절하게 응답하는 방법을 가르치는 예절 지침서, 편지에 답장하는 방법을 가르치는 편지 쓰기 안내서 등이 포함됩니다. 그런 다음 클로드의 소네트 4.6을 강화 학습 훈련의 교사로 사용하고 , 최종적으로 훈련 데이터를 생성합니다.
100년 전의 자연스러운 질문과 답변 데이터셋을 활용하여 연구팀은 Talkie를 채팅에 바로 사용할 수 있는 AI 비서로 훈련시키는 데 성공했습니다.
하지만 현실은 곧바로 그의 얼굴을 후려쳤다.
연구팀은 Talkie의 초기 7B 버전이 강화 학습을 통해 실제로 1, 2, 3과 같은 현대 인터넷의 목록 형식으로 말하는 법을 학습했다는 사실을 발견했습니다.
1930년대 자료에는 목록 형식과 같은 현대적인 형태가 전혀 없었다는 점을 알아두는 것이 중요합니다.
범인은 소네트 4.6이다.
클로드 씨는 최신 인공지능이고, 목록을 사용하는 것을 좋아하기 때문에, 토키는 높은 점수를 얻기 위해 목록 형식으로 말하는 법을 배웠습니다.
(이건 정말 그들의 취향에 맞춘 거네...)
이는 모델 훈련의 주요 문제점을 반영하기도 합니다. 즉, AI 피드백에 기반한 훈련 방식은 필연적으로 모델에 현대적인 스타일을 부여하게 됩니다.
이 심각한 버그를 해결하기 위해 팀의 다음 목표는 언젠가 Talkie가 스스로 학습할 수 있도록 하는 것입니다. (도지)
알렉 래드포드는 누구인가요?
토키 제작팀의 일원인 알렉 래드포드 에 대해서도 이야기해 볼 만하다.
그에 관해서 말하자면, 오늘날 인공지능 산업의 "인프라" 상당 부분이 그와 관련되어 있다고까지 할 수 있을 것입니다.
오픈AI에서 거의 10년 동안 근무하면서 그는 일리야 수츠케버와 어깨를 나란히 하는 기술 전문가였으며, 최초의 GPT 시리즈를 개발한 장본인이기도 합니다.
그는 GPT-1과 GPT-2 논문의 제1저자였으며, GPT-3과 GPT-4의 핵심 기여자였습니다. 또한, 그는 다중 모달 모델인 CLIP의 주요 개발자 중 한 명이었으며, Whisper와 DALL·E 개발에도 깊이 관여했습니다.
2018년에 발표한 그의 획기적인 논문은 Transformer 기반의 생성형 사전 학습 방법을 최초로 제안했으며, 이는 이후 ChatGPT와 모든 대형 모델의 토대를 직접 마련했습니다.
2024년 말, 알렉은 이전 직장인 오픈AI를 떠나 독립적인 연구를 시작했습니다. 2025년 3월에는 오픈AI의 전 CTO였던 미라 무라티가 설립한 씽킹 머신즈 랩에 고문으로 합류했습니다.
돌이켜보면, 영화 '토키' 전체가 상당히 흥미로워 보입니다.
전 세계가 인공 일반 지능(AGI)과 추론 모델에 집중하고 있을 때, GPT 시리즈의 창시자는 동료들과 함께 1930년대에나 존재했을 법한 인공지능을 개발하는 데 몰두했습니다.
팀의 로드맵에 따르면, GPT-3 수준의 레트로 모델이 올여름에 출시될 예정입니다. 이후에는 코퍼스를 1조 개의 토큰으로 확장하고 비영어권 국가로까지 서비스를 확대할 계획입니다.
그 세상이 다시 깨어나서 로봇들이 마라톤을 뛰고, 모두가 스마트폰을 가지고 있고, 에이전트들이 사방에 돌아다니는 모습을 보게 되면 어떤 기분일지 정말 모르겠어요.
그 자리에서 다시 어지럼증과 마비 증상이 나타날까요? (첨부 이미지 참조)
(모델 사용 방법을 아래에 적어 두었습니다. 관심 있는 분들은 100년 전 인공지능과 대화를 나눠보세요~)
참고 링크:
[1] 보고서 링크: https://talkie-lm.com/introducing-talkie
[2] GitHub 링크: https://huggingface.co/talkie-lm
[3] 모델 대화 항목: https://talkie-lm.com/chat
이 글은 위챗 공식 계정 "퀀텀 비트" 의 맹야오(Meng Yao) 님의 글이며, 36Kr의 허가를 받아 게재되었습니다.





