Databricks에는 AI 모델이 스스로를 개선할 수 있는 트릭이 있습니다.

avatar
WIRED
03-25
이 기사는 기계로 번역되었습니다
원문 표시

대기업이 맞춤형 인공지능 모델을 구축하는 데 도움을 주는 회사인 Databricks는 정리된 레이블 데이터 없이도 AI 모델의 성능을 높일 수 있는 머신 러닝 기술을 개발했습니다.

Databricks의 수석 AI 과학자인 조나단 프랭클은 지난해 고객과 대화하면서 AI가 안정적으로 작동하는 데 직면한 주요 과제에 대해 이야기했습니다.

문제는 더러운 데이터라고 프랭클은 말한다.

프랭클은 "모두가 데이터를 가지고 있고, 무엇을 하고 싶은지에 대한 아이디어가 있습니다."라고 말합니다. 하지만 깨끗한 데이터가 부족하면 특정 작업을 수행하기 위해 모델을 미세 조정하는 것이 어렵습니다. "모델에 대한 프롬프트나 [애플리케이션 프로그래밍 인터페이스]에 넣을 수 있는 깔끔하고 깨끗한 미세 조정 데이터를 가지고 나타나는 사람은 없습니다."

Databricks 모델을 활용하면 기업은 결국 데이터 품질에 대한 우려 없이 자체 에이전트를 배포하여 작업을 수행할 수 있습니다.

이 기술은 엔지니어가 고급 AI 모델의 능력을 개선하기 위해 현재 사용하는 몇 가지 주요 요령을 보기 드문 방식으로 보여줍니다. 특히 좋은 데이터를 얻기 어려울 때 더욱 그렇습니다. 이 방법은 AI 모델이 연습을 통해 개선할 수 있는 방법인 강화 학습과 "합성" 또는 AI에서 생성한 훈련 데이터를 결합하여 고급 추론 모델을 만드는 데 도움이 된 아이디어를 활용합니다.

OpenAI , Google , DeepSeek 의 최신 모델은 모두 강화 학습과 합성 학습 데이터에 크게 의존합니다. WIRED는 Nvidia가 합성 데이터를 전문으로 하는 회사인 Gretel을 인수할 계획 이라고 밝혔습니다. Frankle은 "우리 모두 이 공간을 탐색하고 있습니다."라고 말합니다.

Databricks 방법은 충분한 시도가 주어지면 약한 모델조차도 주어진 작업이나 벤치마크에서 좋은 점수를 받을 수 있다는 사실을 이용합니다. 연구자들은 모델의 성능을 높이는 이 방법을 "best-of-N"이라고 부릅니다. Databricks는 사례를 기반으로 인간 테스터가 선호하는 best-of-N 결과를 예측하도록 모델을 훈련했습니다. 그런 다음 Databricks 보상 모델 또는 DBRM을 사용하여 추가 레이블이 지정된 데이터가 필요 없이 다른 모델의 성능을 개선할 수 있습니다.

그런 다음 DBRM을 사용하여 주어진 모델에서 최상의 출력을 선택합니다. 이렇게 하면 모델을 더욱 미세 조정하여 처음에 더 나은 출력을 생성하도록 합성 학습 데이터가 생성됩니다. Databricks는 새로운 접근 방식을 Test-time Adaptive Optimization 또는 TAO라고 합니다. Frankle은 "우리가 말하는 이 방법은 비교적 가벼운 강화 학습을 사용하여 기본적으로 N의 최고 이점을 모델 자체에 적용합니다."라고 말합니다.

그는 Databricks에서 수행한 연구에 따르면 TAO 방법은 더 크고 더 유능한 모델로 확장될수록 개선된다고 덧붙였습니다. 강화 학습과 합성 데이터는 이미 널리 사용되고 있지만 언어 모델을 개선하기 위해 이를 결합하는 것은 비교적 새롭고 기술적으로 어려운 기술입니다.

Databricks는 고객에게 강력한 맞춤형 모델을 만드는 데 필요한 기술이 있다는 것을 보여주고 싶어서 AI를 개발하는 방법에 대해 비정상적으로 공개적입니다. 이 회사는 이전에 WIRED에 최첨단 오픈소스 대규모 언어 모델(LLM)인 DBX를 처음부터 개발한 방법을 공개했습니다.

잘 레이블이 지정되고 신중하게 큐레이팅된 데이터가 없다면 재무 보고서나 건강 기록을 분석하여 패턴을 찾거나 문제를 식별하는 등 특정 작업을 보다 효과적으로 수행하기 위해 LLM을 미세 조정하는 것은 어렵습니다. 많은 회사가 이제 LLM을 사용하여 소위 에이전트를 사용하여 작업을 자동화하고자 합니다.

예를 들어, 금융에서 사용되는 에이전트는 회사의 주요 성과를 분석한 다음 보고서를 생성하여 자동으로 다른 분석가에게 보낼 수 있습니다. 건강 보험에서 사용되는 에이전트는 고객이 관련 약물이나 상태에 대한 정보를 찾도록 안내하는 데 도움이 될 수 있습니다.

Databricks는 언어 모델이 금융 질문에 얼마나 잘 대답하는지 테스트하는 벤치마크인 FinanceBench에서 TAO 접근 방식을 테스트했습니다. 이 벤치마크에서 Meta의 무료 AI 모델 중 가장 작은 Llama 3.1B는 OpenAI의 독점 GPT-4o 및 o3-mini 모델의 82.1%에 비해 68.4%를 기록했습니다. Databricks는 TAO 기술을 사용하여 Llama 3.1B가 FinanceBench에서 82.8%를 기록하여 OpenAI의 모델을 능가했습니다.

"전반적인 아이디어는 매우 유망합니다." 강화 학습을 연구하는 Northeastern University의 컴퓨터 과학자인 Christopher Amato가 말했습니다. "좋은 훈련 데이터가 부족한 것이 큰 문제라는 데 전적으로 동의합니다."

아마토는 많은 회사가 현재 합성 데이터와 강화 학습으로 AI 모델을 훈련하는 방법을 찾고 있다고 말합니다. TAO 방법은 "훨씬 더 확장 가능한 데이터 레이블링과 시간이 지남에 따라 모델이 더 강해지고 레이블이 더 좋아짐에 따라 시간이 지남에 따라 성능이 향상될 수 있기 때문에 매우 유망합니다."라고 그는 말합니다.

하지만 아마토는 강화 학습이 때로 예측할 수 없는 방식으로 작동할 수 있기 때문에 주의해서 사용해야 한다고 덧붙였습니다.

프랭클은 DataBricks가 TAO 기술을 사용하여 고객의 AI 모델 성능을 높이고 첫 번째 에이전트를 구축하도록 돕고 있다고 말합니다. 건강 추적 앱을 만드는 한 고객은 TAO 접근 방식을 통해 이전에는 충분히 신뢰할 수 없었던 AI 모델을 배포할 수 있었다는 것을 알게 되었습니다. 그는 "[앱이] 의학적으로 정확하기를 바랍니다."라고 말합니다. "이것은 까다로운 문제입니다."

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
1
코멘트
Followin logo