안녕히 가세요, Devin. GPT-4o를 기반으로 한 가장 강력한 "AI 엔지니어" Genie가 탄생했습니다.

avatar
36氪
08-13
이 기사는 기계로 번역되었습니다
원문 표시

AI 코딩의 왕좌가 다시 손을 잡았습니다. Genie는 Devin을 능가하여 지구상에서 가장 강력한 "AI 소프트웨어 엔지니어"가 되었습니다. Genie는 프로그래밍 보조자가 아니라 독립적으로 생각하고 함께 싸울 수 있는 "동료"입니다.

IOI 금메달 10개를 보유한 창업팀인 코그니션 AI(Cognition AI)가 개발해 올해 3월 출시한 최초의 'AI 프로그래머' 데빈(Devin)을 아직도 기억하실지 모르겠습니다.

GPT-4를 기반으로 하며 자연어 명령을 텍스트 형식으로 수신하고 독립적으로 코드를 작성할 수 있습니다.

처음 출시되었을 때 프로그래머를 대체할 정도의 효과는 아니었지만 여전히 사람들에게 깊은 인상을 남겼습니다.

이제 5개월이 지났고 "격동적인" GenAI 분야는 완전히 달라졌습니다. GPT-4는 차세대 모델 GPT-4o를 선보일 뿐만 아니라 새로 출시된 Claude 3.5 Sonnet, Codestral 및 기타 모델 모두 뛰어난 코딩 성능을 갖추고 있습니다.

데빈의 직접적인 도전자는 스타트업 코사인이 개발한 독립 AI 엔지니어 지니(Genie)다.

Cosine이 발표한 보고서에 따르면 SWE-Bench에서 Genie는 30.08%를 기록하여 Devin(13.8%)을 쉽게 앞질렀습니다.

Cosine의 공동 창립자이자 CEO인 Alistair Pullen은 "(Genie) 모델의 기능은 벤치마크 점수로 요약할 수 없습니다. 처음부터 인간 소프트웨어 엔지니어(SWE)처럼 생각하고 행동하도록 훈련되었습니다."라고 말했습니다. "

우리가 SWE-Bench에서 Amazon 및 Cognition보다 앞서 30.08%의 점수를 달성하여 세계에서 가장 강력한 AI 소프트웨어 엔지니어를 탄생시켰다는 사실을 여러분과 공유하게 되어 기쁩니다.

CEO가 지니가 인간 소프트웨어 엔지니어처럼 생각하고 행동할 수 있다고 주장하자 네티즌들은 "여자랑 말도 못 하고 부르면 땀 흘린다는 말이냐"고 농담을 했다.

01 지니란 무엇인가? 그것은 무엇을 할 수 있습니까?

Devin과 마찬가지로 Genie도 엔지니어의 지도하에 버그 수정, 기능 구축, 코드 리팩토링, 포괄적인 테스트를 통한 코드 검증 등 다양한 코딩 작업을 자율적으로 완료할 수 있습니다.

Genie는 자율적으로 실행되는 것 외에도 사용자와 협업할 수도 있습니다.

지니는 현재 내부 테스트 단계로, 공식 홈페이지에 정보 등록 후 체험 신청이 가능하다.

Cosine은 Genie가 인간 엔지니어의 인지 과정을 시뮬레이션할 수 있다고 주장합니다.

Pullen은 블로그 게시물에서 "내 생각은 간단합니다. 인간 엔지니어가 작업을 완료하는 방법을 관찰하고 이 프로세스를 모방하게 하는 것입니다."라고 설명했습니다.

Genie가 생성한 코드는 사용자의 GitHub 저장소에 저장됩니다. 이는 Cosine이 사본을 보관하지 않으며 그에 따른 보안 리스크 없다는 것을 의미합니다.

또한 Cosine의 소프트웨어 플랫폼은 Slack 및 시스템 알림과 통합되어 있어 마치 인간 동료처럼 사용자에게 상기시키고, 질문하고, 문제를 태그 데 사용할 수 있습니다.

"Genie는 또한 사용자에게 명확한 질문을 하고 사용자가 생성한 풀 요청에 대한 의견/의견에 응답할 수도 있습니다."

"우리는 Genie가 동료처럼 행동하도록 만들려고 했기 때문에 모델이 동료의 채널을 사용하는 것이 가장 합리적이었습니다."라고 Pullen은 말했습니다.

OpenAI와 협력하고 최신 GPT-4o를 사용하세요

소수의 도구로 보완된 기본 모델에 의존하는 많은 모델과 달리 Genie는 OpenAI의 모델 훈련 및 미세 조정을 포함하는 독점 프로세스를 통해 개발되었습니다.

Genie가 처음 개발되었을 때는 16-32,000개 토큰 범위의 상대적으로 작은 컨텍스트 창이 있는 모델을 기반으로만 미세 조정할 수 있었습니다.

초기 탐색에서 팀은 1억 개 이상의 토큰으로 구성된 대규모 데이터 세트를 사용해도 설계 아키텍처 및 다양한 압축/차단 방법의 장점이 결합되어 모델이 표현할 수 있는 정보 용량에 여전히 한계가 있음을 발견했습니다. 특정 순간. 유일한 방법은 더 큰 컨텍스트 창이 있는 모델을 사용하는 것입니다.

다행히도 얼마 지나지 않아 OpenAI의 장기 컨텍스트 모델에 액세스할 수 있게 되었고 이는 Genie의 기능에 획기적인 발전이 되었습니다.

Pullen은 VentureBeat에 "Genie는 (현재) 일반이 아닌 GPT-4o 변형이며 OpenAI를 통해 실험 프로그램의 일부로 교육용 모델에 액세스하고 사용할 수 있습니다."라고 말했습니다.

"모델이 매우 잘 작동하여 OpenAI의 미세 조정 팀 및 엔지니어링 리더십과 우리가 배운 내용을 공유했습니다. 이는 그들이 우리의 새로운 기술에 자원과 관심을 쏟도록 설득했기 때문에 우리에게 진정한 전환점이 되었습니다."

Cosine이 특정 모델을 지정하지는 않았지만 OpenAI는 최근 GPT-4o 긴 출력 컨텍스트 모델의 제한된 가용성을 발표했습니다. 출력 길이는 원래 4k에 비해 16배 증가한 64k 토큰에 도달할 수 있습니다.

훈련 데이터가 핵심이다

Pullen은 기술 보고서에서 최근 훈련 실행에서 Genie가 수십억 개의 토큰 데이터에 대해 훈련을 받았으며, 이 데이터의 조합은 현재 사용자가 가장 관심을 갖는 언어에 대해 가능한 한 유능한 모델을 만들기 위해 선택되었다고 썼습니다.

Genie의 기술 보고서에는 훈련 데이터에 포함된 15개 언어가 나열되어 있습니다. Java, JS, C, C++, C#, Rust, Python 등 이슈 언어는 물론 일반적으로 사용되는 Scala, Kotlin, Swift, PHP 등도 포함됩니다. 또한 덮여 있습니다.

그 중 JavaScript, Python, TypeScript, TSX가 데이터 세트에서 가장 큰 점유비율 언어이고 나머지가 3%를 점유비율.

Cosine의 블로그 게시물에 따르면 팀은 실제 엔지니어의 대량 소프트웨어 개발 활동이 포함된 데이터 세트를 컴파일하는 데 거의 1년을 보냈습니다.

이 데이터는 본질적으로 존재하지 않기 때문에 획득하고 효과적으로 활용하는 것은 매우 어렵습니다.

그들의 데이터 파이프라인은 소프트웨어 엔지니어의 개발 궤적을 추적하고 풀 요청, 커밋, OSS 저장소(MIT 라이센스) 및 기타 데이터의 문제를 수집하는 것으로 시작됩니다.

그런 다음 이 데이터는 파이프라인을 통해 실행되어 추론 프로세스를 법의학적으로 도출하고 인간이 최종 결론에 도달한 방법을 재구성합니다.

데이터 세트의 다양한 작업 유형의 점유비율

이 독점 데이터 세트는 모델의 첫 번째 버전을 훈련하기 위한 기반이었으며 나머지는 자기 플레이와 자기 개선이 모두 수행되었습니다.

Genie의 자율성 루프는 계획, 검색, 코드 작성 및 코드 실행의 네 가지 주요 프로세스로 구성됩니다. 이것들은 그 자체로는 새로운 것이 아니지만 Genie가 인간과 같은 작업을 수행하도록 훈련되었기 때문에 더 큰 수준으로 개선되었습니다.

"데이터 주석의 영향은 과소평가될 수 없습니다. 유능한 소프트웨어 엔지니어로부터 고품질 데이터를 얻는 것은 어렵지만 쉽게 눈에 띄지 않는 문제 해결에 대해 개발자가 생각하는 방식에 대한 통찰력을 제공하므로 결과는 그만한 가치가 있습니다."

이 데이터 세트는 완벽한 정보 맥락과 진보적인 지식 발견을 구현할 뿐만 아니라 인간 엔지니어의 단계별 의사 결정 프로세스도 포착합니다.

Pullen은 다음과 같이 주장합니다. “단순히 기본 모델(다른 사람들이 수행하는 작업)을 실행하는 대신 이 데이터 세트를 사용하여 모델을 실제로 교육함으로써 우리는 더 이상 무작위로 코드를 생성하는 것이 아니라 인간처럼 문제에 접근하고 있음을 발견했습니다.

벤치마크 결과

모델 개발 과정에서 팀은 평가를 위해 SWE-Bench와 HumanEval이라는 두 가지 벤치마크를 주로 사용했습니다.

전자는 문제 분해, 관련 코드 찾기, 코드 분류, 실행 가능한 솔루션 구현 등 보다 포괄적인 문제를 다루고, 후자는 코드 작성에 더 중점을 두고 검색 측면이 없으며 문제 이해에 덜 중점을 둡니다.

하지만 공식 블로그에는 SWE-Bench 점수만 공개되었는데, Genie는 30.08%, SWE-Lite는 50.67%를 달성했습니다.

그 중에서도 지니의 SWE-Bench 성적은 매우 인상적이다. 이는 현재까지 최고 점수로 2위인 19.27%에 비해 10% 이상 상승한 수치이다.

또한 팀은 모델의 정보 검색 기능, 특히 필요한 코드 파일의 올바른 부분을 검색하는 기능을 독립적으로 테스트했습니다.

이는 AI 엔지니어의 핵심 구성 요소 중 하나입니다. 모델이 편집할 올바른 코드를 안정적이고 능숙하게 찾을 수 없으면 코드 편집 기능을 완전히 활용할 수 없습니다.

모델이 매번 올바른 코드를 찾는다고 가정하면 검색 기능을 간단히 측정하는 방법은 모델이 작업을 완료하기 위해 찾은 코드 줄 수와 실제로 찾은 코드 줄 수를 확인하는 것입니다.

테스트에서 Genie는 64.27%의 점수로 142,338줄 중 필요한 91,475줄의 코드를 성공적으로 검색했습니다. 여기에는 분명 개선의 여지가 많으며, 문제 분해 능력에 비해 검색 능력은 덜 주목받는 측면이다.

02 중국 옥스포드 석사 학위가 이끄는 YC 지원

코사인은 실리콘 밸리의 유명한 Y Combinator 스타트업 가속기 통해 설립되었습니다.

이 회사는 인공 지능이 이러한 작업을 모방하고, 탁월하고, 확장하도록 가르치는 것을 목표로 인간이 작업을 수행하는 방식을 연구하고 선별하는 데 중점을 둔 인간 추론 연구소입니다.

2022년 Alistair Pullen, Sam Stenner 및 Yang Li는 Cosine을 공동 창립하여 인간 추론 실험실로 자리매김했습니다.

그들은 소프트웨어 엔지니어링 분야에서 시작하여 인간이 작업을 수행하는 방식을 연구하고 조직하여 AI가 이러한 작업을 모방하고, 탁월하고, 확장하도록 가르치고 지능 개발을 촉진하기를 희망합니다.

Cosine은 Uphonest와 SOMA Capital로부터 250만 달러의 종자 자금을 조달했으며 Lakestar, Focal 및 기타 회사도 투자에 참여하고 있습니다.

코사인은 작지만 고도로 숙련된 팀으로 이미 인공지능 분야에서 큰 발전을 이루었고 지니는 시작에 불과합니다.

풀렌은 발표 블로그 게시물에서 "우리는 모든 직업과 산업에 대해 인간의 추론을 재현할 수 있다고 진심으로 믿습니다"라고 말했습니다.

"소프트웨어 엔지니어링은 가장 직관적인 출발점일 뿐입니다. 우리가 작업 중인 다른 모든 것을 모든 사람에게 보여주고 싶습니다."

창업팀 중에는 중국인 얼굴인 양리(Yang Li)가 있다는 점도 언급할 만하다.

Li는 옥스퍼드 대학교 사회학과를 졸업했으며 2021년 포브스 30세 이하 30인 중 한 명으로 선정되었습니다.

Cosine을 설립하기 전에 그는 Meituan Mobike의 자전거 업무 상업 이사를 포함하여 6개의 업무/기업가 경험을 쌓았습니다.

2022년 이전에 Yang Li는 매년 한 번씩 점프하는 빈도로 업계에서 새로운 기회를 계속 탐색할 것임을 알 수 있습니다.

이제 Yang Li의 트위터 프로필은 자신을 다음과 같이 설명합니다: IPO 1회, 인수 2회, 유니콘 3회 경험.

IPO는 Mobike의 월간 활성 사용자 수를 2억 2천만 명, 최대 550억 달러의 IPO로 늘리는 것을 의미합니다.

03 지니의 미래

Pullen은 VentureBeat에 보낸 이메일을 통해 Genie의 가능한 가격 모델을 공개했습니다. 초기 단계에서 제품 가격은 두 가지 유형으로 구분됩니다.

하나는 개인과 소규모 팀을 위한 것입니다. 가격은 20달러 내외로 기존 AI 도구에 비해 경쟁력이 있다. 이 수준의 제품에는 기능과 사용에 일부 제한이 있습니다.

두 번째는 기업용이다. 더 많은 기능, 거의 무제한 사용, 완벽한 AI 동료, 코딩 전문가를 만드는 능력을 갖추고 있습니다. 이 수준의 가격은 더 높아질 것입니다.

Pullen은 Cosine에서 "우리는 엔드투엔드 프로그래밍 작업을 진정으로 자동화하고 개입이 필요 없으며 신뢰성이 높은 인간 동료를 만드는 꿈을 쫓고 있습니다. Genie는 이 꿈을 실현하는 첫 번째 단계입니다."라고 말했습니다. 블로그 게시물을 읽습니다.

Genie의 출시는 소프트웨어 개발 팀, 특히 생산성을 높이고 일일 작업 시간을 줄이려는 팀에 광범위한 영향을 미칩니다.

복잡한 프로그래밍 문제를 자율적으로 처리할 수 있는 능력을 갖춘 Genie는 엔지니어링 리소스 할당 방식을 변경하여 팀이 보다 전략적인 계획에 집중할 수 있게 해줍니다.

Pullen은 “엔지니어링 자원이 더 이상 제약이 되지 않는다는 생각이 저에게 큰 원동력이 되었습니다. 특히 회사를 시작한 후에는 더욱 그렇습니다.”라고 썼습니다.

AI 동료는 알려지지 않은 코드 베이스에 뛰어들어 알려지지 않은 문제를 인간보다 몇 배나 빠르게 해결할 수 있으며 그 가치는 자명하며 세상에 큰 영향을 미칠 것입니다.

Cosine은 Genie의 향후 개발을 위한 야심찬 계획을 가지고 있습니다.

"우리는 Genie 혁신 기술팀을 통해 발전을 가속화하고 있습니다. 우리의 주요 목표는 실제 제품과 최첨단 연구의 균형을 맞추는 것입니다."

- Genie의 기능을 향상시키기 위해 데이터 세트를 개선합니다. 데이터를 확장하고 새로운 기능을 도입함으로써 Genie는 개발자의 작업 요구 사항을 정확하게 충족할 수 있는 더 많은 프로그래밍 언어와 최신 프레임 에 능숙해질 것입니다.

- 모델 포트폴리오를 확장합니다. 간단한 작업을 위한 소형 모델과 보다 복잡한 과제를 처리할 수 있는 대형 모델이 포함됩니다. 고유한 데이터 세트를 활용하면 Cosine이 모든 최첨단 기본 모델을 Genie 모델로 변환할 수 있습니다.

- 오픈 소스 커뮤니티로 작업을 확장합니다. 예를 들어, 선도적인 오픈 소스 모델을 상황에 맞게 확장하고 대규모 데이터 세트를 사용하여 사전 훈련할 수 있습니다.

- 특정 코드베이스로 Genie를 미세 조정하세요. 이는 해당 코드가 덜 널리 사용되거나 독점 언어로 작성된 경우에도 Genie가 대규모 레거시 코드 기반을 완벽하게 이해할 수 있도록 하는 엔터프라이즈 기능입니다.

Pullen은 회사가 Genie를 지속적으로 개선함에 따라 이 인공 동료와의 상호 작용을 최적화하고 귀중한 피드백을 수집하기 위해 고객에게 계속 업데이트를 출시할 것이라고 말했습니다.

Li는 트위터에서 Cosine이 인간의 추론 능력을 성문화하는 것을 목표로 하며 앞으로는 더 이상 오버샘플링이나 부조종사가 없을 것이라고 상상했습니다.

참고자료:

https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/

https://cosine.sh/blog/genie-technical-report

https://cosine.sh/blog/state-of-the-art

이 기사는 WeChat 공개 계정 "Xin Zhiyuan" 에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트