AI 자율 연구가 상당한 성과를 거두고 자율 시스템에 대한 의문을 제기함에 따라 연구소들은 AI 연구 워크플로우를 재고하고 있습니다.
최근 몇 주 동안 안드레이 카르파티의 실험이 입소문을 타면서 AI 자동 연구는 틈새 아이디어에서 AI 연구 커뮤니티의 핵심 화두로 떠올랐습니다.
카르파티의 자기연구 개념의 기원
이달 초, 저명한 AI 연구원이자 오픈AI 창립 멤버 중 한 명인 안드레이 카르파티는 X에 대한 놀라운 실험 결과를 공유했습니다. 그는 이후 테슬라 에서 AI 부문을 이끌었고, 현재는 독립적으로 활동하며 AI 시대를 위한 새로운 형태의 교육기관을 설립하는 유레카 랩스를 운영하고 있습니다.
X 플랫폼에서 190만 명의 팔로워를 보유한 카르파티는 인공지능에 대한 거의 모든 발언이 빠르게 퍼져나갈 정도로 영향력이 크다. 하지만 그의 최근 게시물은 특히 눈길을 끌었는데, 그가 직접 개발한 자동화 연구 시스템인 "자동 연구(autoresearch)" 를 소개했기 때문이다. 이 아이디어는 실무자와 이론가 모두의 관심을 빠르게 사로잡았다.
이번 실험에서 카르파티는 소규모 언어 모델의 학습을 개선하기 위한 일련의 테스트를 실행하기 위해 AI 코딩 에이전트를 배포했습니다. 에이전트는 이틀에 걸쳐 700개의 실험을 수행하며, 더 나은 설정을 찾기 위해 학습 구성을 체계적으로 탐색했습니다.
이러한 실험들을 통해 에이전트는 훈련 효율성을 향상시키는 20가지 최적화 방안을 발견했습니다. 더욱이, 카르파티는 동일한 20가지 최적화 방안을 더 크지만 여전히 상대적으로 작은 언어 모델에 적용했을 때 훈련 시간이 11% 단축되는 결과 를 얻었습니다. 이러한 구체적인 성과는 그의 접근 방식의 실용적인 잠재력을 입증했습니다.
실험실 시연에서 잠재적인 새로운 연구 패러다임까지
카르파티는 이 프레임워크를 코드 및 모델 최적화를 위한 범용 연구 엔진이라고 설명했습니다. 특히, 그는 자동 연구 에이전트가 자체적으로 튜닝하는 것이 아니라, 다른 소규모 AI 모델의 훈련 코드와 초기 신경망 매개변수를 조정하는 것이라고 강조했습니다. 이러한 차이점은 연구 워크플로에 미치는 영향이 매우 크지만, 안전성 논의에 있어서도 중요한 의미를 갖습니다.
그는 그러한 도구들이 선도적인 연구소들이 AI 연구를 수행하는 방식을 재편할 수 있다고 주장했다. 카르파티는 X에 기고한 글에서 "모든 LLM 최첨단 연구소들이 이것을 사용할 것이다. 이것이 최종 목표다."라고 썼다. 그러나 그는 630줄짜리 파이썬 프로젝트에서 몇 배나 더 큰 최첨단 모델 코드베이스로 아이디어를 확장하는 것은 상당한 복잡성을 야기한다는 점을 인정했다.
카르파티는 여전히 이 문제를 개념적 장벽보다는 공학적 문제로 인식했다. 그의 견해에 따르면, 연구실에서는 에이전트 무리를 만들어 협력하여 소규모 모델을 조정하고, 가장 유망한 아이디어를 점진적으로 더 큰 규모로 확장해 나갈 것이다. 그는 인간은 모든 수정 사항을 직접 코딩하는 대신, "선택적으로" 중간 단계에서 지침을 제공하고 평가하는 역할을 할 것이라고 제안했다.
현재 그의 구현은 하나의 에이전트가 하나의 경로를 따라 코드베이스를 반복적으로 개선하는 데 초점을 맞추고 있습니다. 하지만 미래에는 여러 AI 에이전트가 서로 다른 가설과 실험을 병렬적으로 탐색할 것으로 예상합니다. 그는 자기연구 의 다음 단계는 단일 박사 과정 학생이 아닌 연구 공동체를 모방하도록 설계된, 에이전트를 위한 비동기적이고 대규모 협업 환경이 되는 것이라고 썼습니다.
업계 반응 및 쇼피파이 테스트
쇼피파이 의 공동 창업자이자 CEO인 토비아스 뤼트케가 회사 데이터를 이용해 이 시스템을 실제로 적용해 보기로 결정하면서, 이 실험은 빠르게 이론 단계를 넘어섰습니다. 뤼트케는 X 매거진에 이 시스템을 사용하여 내부 AI 모델을 최적화하고, 에이전트에게 품질과 속도를 모두 향상시키도록 지시했다고 보고했습니다. 이로써 이 개념은 기업용 애플리케이션에서도 실현 가능해졌습니다.
뤼트케에 따르면, 해당 에이전트는 하룻밤 동안 프로세스를 실행한 결과 37개의 실험을 수행하여 19%의 성능 향상을 달성했다고 합니다. 그는 자세한 기술적 내용을 공개하지는 않았지만, 이 결과는 상업적 영향에 대한 기대와 추측을 불러일으킬 만큼 인상적이었습니다.
카르파티는 나중에 평가하기에 합리적으로 효율적인 모든 지표는 그러한 에이전트 군집의 목표가 될 수 있다고 언급했습니다. 더 나아가, 그는 만약 어떤 지표를 평가하는 데 더 저렴한 방법, 예를 들어 큰 네트워크 대신 더 작은 네트워크를 훈련시키는 방법이 있다면, 그것 또한 통합될 수 있다고 지적했습니다. 그는 기술자들이 자신들의 최적화 문제가 이러한 범주에 속하는지 고려해 볼 것을 촉구했습니다.
스스로 발전하는 인공지능에 대한 꿈과 두려움에 관한 링크
대중의 관심을 진정으로 사로잡은 것은 이것이 오랫동안 논의되어 온 자기 개선형 인공지능이라는 개념과 매우 흡사하다는 점이었습니다. 공상 과학 소설에서는 종종 스스로 코드를 수정하는 시스템이 묘사되어 왔으며, 일부 현대 연구자들은 그러한 능력을 열망하는 반면, 다른 이들은 이를 두려워합니다. 재귀적 자기 개선 이라는 개념은 인공지능 안전 분야에서 특히 큰 반향을 일으키고 있습니다.
이러한 논의에서 핵심적인 우려 사항은 인공지능이 자체 아키텍처와 훈련 데이터를 지속적으로 최적화하는 루프에 빠질 수 있다는 점입니다. 이러한 과정이 반복되면 일부 안전 연구원들이 "급격한 이륙" 또는 "지능 폭발"이라고 부르는 현상이 발생할 수 있습니다. 이러한 시나리오에서는 인공지능이 인간의 인지 능력을 빠르게 뛰어넘어 의미 있는 제어를 유지하기가 어렵거나 불가능해질 수 있습니다.
하지만 카르파티의 설정은 그러한 이상적이거나 우려스러운 모습과는 거리가 멀다. 그가 사용한 에이전트는 자체 학습 파이프라인을 수정하거나 내부 구조를 변경하는 것이 아니라, 다른 더 단순한 모델의 학습 코드와 신경망 설정을 재작성하는 것이다. 이러한 분리 덕분에 현재 시스템은 보다 전통적인 최적화 패러다임 내에 머물러 있지만, 나아갈 방향은 분명하다.
그럼에도 불구하고 많은 관찰자들은 이 연구를 연구실이 궁극적으로 더욱 자율적인 시스템을 구축할 수 있는 방식의 전조로 해석했습니다. 더욱이, 에이전트 기반 실험이 접근하기 쉽고 효과적이라는 것을 보여줌으로써, 이 프로젝트는 더욱 발전된 에이전트 시스템 최적화 루프를 포함한 유사한 아키텍처의 도입을 가속화할 수 있을 것입니다.
카르파티 루프와 일반화된 에이전트 패턴
일부 분석가들은 이 프로젝트의 핵심 패턴을 추상화하여 재사용할 수 있다고 지적했습니다. 자나키람 앤 어소시에이츠 의 수석 분석가인 자나키람 MSV 는 기술 전문 매체 인 더 뉴 스택(The New Stack) 에 기고한 글에서 카르파티가 재사용 가능한 순환 구조를 효과적으로 정의했다고 언급했습니다. 그는 이를 "카르파티 루프" 라고 명명하고, 더 광범위한 에이전트 시스템을 위한 템플릿으로 활용할 수 있다고 제안했습니다.
자나키람에 따르면, 이 루프에는 세 가지 필수 요소가 있습니다. 첫째, 에이전트는 자유롭게 수정할 수 있는 단일 파일에 접근해야 합니다. 둘째, 최적화를 위해 객관적으로 검증 가능한 단일 지표가 필요합니다. 셋째, 각 실험에는 고정된 시간 제한이 있어야 하며, 에이전트가 결과를 보고하기 전에 주어진 실험을 실행할 수 있는 시간을 제한해야 합니다.
그는 또한 카르파티가 설정 파일에 포함시킨 지침이 모든 AI 에이전트와 소통하는 방법에 대한 강력한 모델을 제공한다고 강조했습니다. 일반 텍스트 파일에는 에이전트가 수행해야 할 작업, 적용되는 제약 조건, 건드려서는 안 되는 부분, 그리고 종료 기준이 세심하게 명시되어 있었습니다. 더욱이, 각 루프가 실행되어야 하는 시간과 에이전트가 언제 중지하고 결과를 요약해야 하는지도 정확하게 정의되어 있었습니다.
평론가들은 이러한 정확한 프롬프트 엔지니어링 방식이 중요한 기술이 되고 있다고 주장했습니다. 기본 모델이 더욱 강력해지더라도 효과적인 제어는 여전히 에이전트의 자율성을 구체적인 목표 및 경계에 맞춰 명확하고 구조화된 지침을 작성하는 인간의 작업에 달려 있습니다.
자동 연구와 기존 AutoML 접근 방식 비교
모든 사람이 카르파티의 연구가 획기적인 발견이라고 동의한 것은 아닙니다. 일부 비평가들은 그가 구글 , 마이크로소프트 및 기타 AI 연구소에서 수년간 사용해 온 기술인 오토ML 의 구성 요소를 사실상 재발견했을 뿐이라고 주장했습니다. 오토ML 프레임워크는 더 나은 데이터, 아키텍처 및 하이퍼파라미터를 찾기 위해 반복적인 실험을 수행합니다.
기존의 AutoML 시스템은 자동화된 최적화 루프와 탐색 전략에 크게 의존합니다. 이러한 시스템은 모델 아키텍처를 탐색하고, 하이퍼파라미터를 조정하며, 때로는 무작위 변형이나 진화 알고리즘을 사용하여 훈련 데이터를 선택합니다. 그러나 일반적으로 연구 논문을 읽고, 새로운 가설을 설계하고, 그에 따라 임의의 코드 변경을 작성할 수 있는 AI 에이전트는 포함하지 않습니다.
카르파티는 차이점을 최소화하는 비교 방식에 반박했습니다. 그는 모델 설계를 자동화하는 방법으로 등장한 신경망 아키텍처 검색 과 같은 기법을 예로 들었습니다. 그의 견해로는, 이러한 기법의 초기 형태는 코드를 통해 추론하고, 과거 시행착오를 통해 학습하며, 인터넷에서 정보를 가져올 수 있는 에이전트에 비해 취약했습니다.
그는 기존의 신경망 아키텍처 검색 방식을 "너무나 취약한 버전으로, 비교하자면 완전히 쓸모없는 수준에 가깝다"고 비판했습니다. 더 나아가, 그의 시스템은 대규모 언어 모델을 사용하여 임의의 코드를 작성하고, 이전 실험 결과를 해석하며, 전략을 실시간으로 조정할 수 있기 때문에 기존의 자동화된 신경망 아키텍처 검색 파이프라인보다 훨씬 유연하다고 강조했습니다.
에이전트 스웜과 더 광범위한 영향에 대한 전망
관심이 높아짐에 따라 일부 연구자들은 카르파티 자동 연구 실험 아이디어를 확장하여 완전한 에이전트 군집을 구축하는 방안을 모색하고 있습니다. 이러한 비전은 전문화된 에이전트 네트워크가 작업을 분담하고, 결과를 교차 검증하며, 새로운 접근 방식을 제안하는 동안 인간은 상위 수준의 목표와 가이드라인을 설정하는 것입니다. 이는 학계와 산업계의 AI 워크플로우를 혁신적으로 변화시킬 수 있습니다.
하지만 에이전트 군집의 확장은 안전성, 신뢰성 및 관리 측면에서 해결되지 않은 문제들을 제기합니다. 자기 개선의 반복적인 위험성을 우려하는 관찰자들은 이러한 시스템이 핵심 인프라에 대한 자율성과 영향력을 확대해 나갈수록 세심한 감독이 필수적이라고 경고합니다. 각 단계별 승격 과정에서 견고한 평가 지표와 사람의 검토를 유지하는 것이 매우 중요할 것입니다.
현재로서는 카르파티의 프로젝트는 언어 모델이 소규모 코드베이스에서 자율 연구 에이전트 실험을 수행하는 방법을 보여주는 비교적 제한적인 사례로 남아 있습니다. 그러나 뤼트케와 같은 인물들과 업계 전반의 분석가들의 반응은 이러한 기본 패턴이 빠르게 확산되어 인간 연구자와 자율 에이전트 집단 간의 경계가 모호해질 수 있음을 시사합니다.
요약하자면, 카르파티의 자율 연구는 잘 구성된 단일 에이전트가 몇 달이 아닌 며칠 만에 측정 가능한 성능 향상을 이뤄낼 수 있음을 보여줍니다. 더욱이, 연구실에서 이러한 기술을 더 큰 모델과 다중 에이전트 군집으로 확장함에 따라, 자율성, 제어, 그리고 인공지능 연구의 미래 방향에 대한 오랜 논쟁을 더욱 심화시키는 동시에 강력한 새로운 가능성을 열어줄 수 있을 것입니다.



