오픈 소스 대형 모델의 "ChatGPT 순간"이 다가오고 있으며 Meta는 최신 AI 대형 모델을 출시합니다.

avatar
36氪
07-25
이 기사는 기계로 번역되었습니다
원문 표시

전문적인 인공 지능(AI) 모델을 구축하는 데 중점을 두는 개발자의 장기적인 과제는 고품질 교육 데이터를 얻는 것입니다. 더 작은 전문가 모델(10억~100억 범위의 매개변수 크기)은 훈련 데이터 세트를 향상하기 위해 더 큰 모델의 출력이 필요한 "증류 기술"을 활용하는 경우가 많습니다. 그러나 OpenAI와 같은 폐쇄 소스 거대 기업의 데이터를 사용하는 데는 다음이 적용됩니다. 심각한 제한으로 인해 상업용 응용 프로그램이 크게 제한됩니다.

베이징 시간으로 7월 23일(화) 저녁, 글로벌 AI 분야 개발자들이 오랫동안 기다려온 오픈소스 대형 모델 'ChatGPT 모멘트'가 드디어 도래했다. 메타가 최신 AI 모델 라마(Llama) 3.1을 출시했는데, 그 중 라마(Llama)가 가장 큰 매개변수 척도 버전 3.1-405B.

Zuckerberg는 Llama 3.1을 "예술의 시작점"이라고 부르며 OpenAI 및 Google의 대형 모델을 벤치마킹할 예정입니다. 테스트 데이터에 따르면 Meta Llama 3.1-405B는 GSM8K와 같은 여러 AI 벤치마크 테스트에서 현재 가장 진보된 비공개 소스 모델인 OpenAI GPT-4o를 능가했습니다. 이는 오픈 소스 모델이 처음으로 현재의 최첨단 폐쇄 소스 대형 모델을 능가한다는 것을 의미합니다.

또한 Llama 3.1-405B의 출시는 개발자가 틈새 모델을 교육하기 위해 "정제된" 출력을 자유롭게 사용할 수 있음을 의미하며 전문 분야의 혁신 및 배포 주기를 크게 가속화합니다.

01 오픈소스 커뮤니티의 “Milestone”

2024년 4월 Meta는 오픈소스 대형 언어 모델 Llama 3을 출시했습니다. 그 중 라마 3-8B와 라마 3-70B는 같은 크기의 대형 모델에 대한 새로운 기준을 세웠지만, 불과 3개월 만에 AI 기능의 반복으로 다른 대형 모델이 이를 빠르게 앞질렀다.

모두가 서로 쫓는 경쟁 환경에서 메타는 최근 AI 모델 라마 3.1을 출시했다. 라마 3.1-8B, 라마 3.1-70B, 라마 3.1-405B 총 3가지 모델이 있다. 이 중 처음 2개는 지난 4월 출시된 라마 3-8B와 라마 3-70B 모델의 업데이트 버전이다. Llama 3.1-405B 버전은 4,050억 개의 매개변수를 가지고 있으며 현재까지 Meta의 가장 큰 오픈 소스 모델 중 하나입니다.

출시 당일(베이징 시간) 이른 아침, '아메리칸 티에바(American Tieba)' 레딧의 LocalLLaMA 서브 포럼에서는 출시 예정인 3개 모델의 초기 벤치마크 테스트 결과가 유출됐다.

유출된 데이터에 따르면 Meta Llama 3.1-405B는 여러 주요 AI 벤치마크에서 OpenAI의 GPT-4o보다 성능이 뛰어납니다. 이는 오픈 소스 AI 커뮤니티에 있어 중요한 이정표입니다. 처음으로 오픈 소스 모델이 현재의 최첨단 폐쇄 소스 대규모 모델을 능가했습니다.

Meta 팀의 연구원인 Aston Zhang이 X에 게시한 콘텐츠에서도 유출된 테스트 데이터가 확인되었습니다.

이미지 출처:X

특히 Meta Llama 3.1-405B는 IFEval, GSM8K, ARC Challenge 및 Nexus와 같은 많은 테스트에서 GPT-4o보다 우수합니다. 그러나 여러 MMLU 테스트와 GPQA 테스트에서는 GPT-4o보다 뒤떨어집니다. 또한 Llama 3.1의 컨텍스트 창에는 128,000개의 태그 포함됩니다. 이는 이전 Llama 모델보다 크고 대략 50페이지 책 길이에 해당합니다.

이미지 출처:X

그러나 이러한 벤치마크는 Llama 3.1 기본 모델의 성능을 반영한다는 점에 유의하는 것이 중요합니다. 이러한 모델의 진정한 잠재력은 이러한 모델의 기능을 크게 향상시킬 수 있는 프로세스인 명령 조정을 통해 실현될 수 있습니다. 곧 출시될 Llama 3.1 모델의 지침 조정 버전은 훨씬 더 나은 결과를 낳을 것으로 예상됩니다.

02 라마 4호가 6월부터 훈련을 시작했습니다

OpenAI의 곧 출시될 GPT-5는 고급 추론 기능을 갖추고 대형 모델에서 Llama 3.1의 잠재적인 리더십에 도전할 수 있을 것으로 예상되지만, GPT-4o에 대한 Llama 3.1의 강력한 성능은 여전히 ​​오픈 소스 AI 개발의 힘과 힘을 강조합니다.

전문적인 AI 모델 구축에 중점을 두는 개발자가 직면하는 장기적인 과제는 고품질 교육 데이터를 얻는 것입니다. 더 작은 전문가 모델(10억~100억 범위의 매개변수 크기)은 훈련 데이터 세트를 향상하기 위해 더 큰 모델의 출력이 필요한 "증류 기술"을 활용하는 경우가 많습니다. 그러나 OpenAI와 같은 폐쇄 소스 거대 기업의 데이터를 사용하는 데는 다음이 적용됩니다. 심각한 제한으로 인해 상업용 응용 프로그램이 크게 제한됩니다.

Llama 3.1-405B의 출시는 개발자가 틈새 모델을 교육하기 위해 "증류된" 출력을 자유롭게 사용할 수 있음을 의미하며, 이를 통해 전문 분야의 혁신 및 배포 주기를 크게 가속화할 수 있습니다. 강력하고 오픈 소스 윤리적인 고성능 미세 조정 모델의 개발이 급증할 것으로 예상됩니다.

펜실베이니아 대학교 와튼 스쿨의 부교수인 Ethan Mollick은 다음과 같이 썼습니다. “이러한 데이터가 사실이라면 최고의 AI 모델이 이번 주부터 모든 사람에게 무료로 제공될 것이라고 말해도 무방합니다. 동일한 AI를 사용할 수 있게 될 것입니다. 전 세계적으로 흥미로울 것입니다.”

Llama 3.1-405B의 오픈소스는 오픈소스 모델과 폐쇄소스 모델 간의 격차가 다시 좁아졌음을 입증하기도 합니다.

이미지 출처:X

'매일경제뉴스' 기자는 또한 널리 기대되는 라마 3.1-405B 외에도 외신들이 라마 4가 6월에 훈련을 시작했다고 보도했으며, 훈련 데이터에는 페이스북과 인스타그램 소셜 플랫폼 사용자들의 공개 게시물이 포함되어 있다는 점에 주목했다. 시작하기 전에 Mate는 데이터 개인 정보 보호 규정이 가장 엄격한 유럽 연합의 사용자에게 20억 개 이상의 알림을 보냈으며 대규모 모델 훈련에 데이터를 사용하는 데 동의하지 않는 옵션을 제공했습니다.

라마 4에는 텍스트, 이미지, 비디오, 오디오 모드가 포함될 것으로 알려졌으며, 메타는 이 새로운 모델을 휴대폰과 스마트 글래스에 적용할 계획이다.

이 기사는 WeChat 공개 계정 "Daily Economic News" 에서 가져온 것입니다. 작성자: 모든 기자, 36 Krypton은 게시 권한이 있습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트