OpenAI의 가장 강력한 GPT-4o보다 빠르고, GPT-4와 동일한 기능 호출 기능을 갖고 있으며, N배 더 작고, 추론을 위해 하나의 카드만 필요합니다.
넥사 AI가 데뷔 당시 모두에게 안겨준 '충격'이 바로 이것이다.
4개월 전, Nexa AI가 개발한 5억 매개변수 소형 모델 Octopus v2는 실리콘밸리 AI계에서 광범위한 관심을 끌었습니다. 그들이 개발한 Functional Token 기술은 GPT-4o보다 4배, RAG 솔루션보다 140배 빠른 뛰어난 추론 속도를 달성할 수 있으며, 함수 호출 정확도도 98% 이상으로 GPT-4에 필적하는 성능을 갖췄습니다.
Product Hunt에서 출시된 날 Octopus v2는 "오늘의 제품 1위"를 수상했으며 Hugging Face가 출시된 달에 누적 다운로드 12,000회를 기록했습니다. Hugging Face CTO Julien Chaumond, 기술 리더 Philipp Schmid, Figure AI 창립자 Brett Adcock 및 기타 AI 업계 권위자들이 만장일치로 인증했습니다.
Nexa AI는 1995년에 태어난 두 명의 젊은 스탠포드 졸업생 Alex Chen과 Zack Li가 공동 창립했으며 현재 8명의 정규 직원을 두고 있습니다. 스탠포드대학교 경영과학공학과 교수이자 기술 리스크 캐피탈 프로젝트 부국장인 찰스 척 이슬리(Charles (Chuck) Eesley)와 스탠포드대학교 NLP 그룹 교수이자 슬론 연구원인 디이 양(Diyi Yang)이 기업 컨설턴트로 활동하고 있다.
3C 전자, 자동차, 네트워크 보안, 패션 소비 등 분야에서 단기간에 10개 이상의 주요 기업 고객과 계약을 성공적으로 체결한 것으로 알려졌다. 1,000명이 넘는 등록 사용자에게 서비스를 제공하고 있으며 최근 천만 달러가 넘는 초기 융자 완료했습니다.
Octopus v2가 출시된 지 한 달도 채 되지 않아 Nexa AI는 다중 모드 기능을 달성할 수 있는 10억 개 미만의 매개변수를 갖춘 최초의 AI 모델인 Octopus v3를 출시했습니다.
GPT-4V, GPT-4에 필적하는 함수 호출 정확도를 유지하면서 라즈베리파이 등 다양한 엣지 디바이스에서 효율적으로 실행할 수 있고, 텍스트와 이미지 입력을 지원하며, 중국어와 영어를 이해할 수 있다. 이후 다양한 지식 분야에서 다단계 쿼리 작업을 수행할 수 있는 38억 개의 매개변수 모델인 Octo-planner와 같은 신제품이 출시되었습니다.
다음으로 Nexa AI는 '야망'을 전체 엔드사이드 모델 시장으로 확장합니다.
최근에는 최초의 종합 엔드사이드 AI 개발 플랫폼 '모델 허브'를 출시했습니다. 핵심은 로컬 배포를 위해 설계되고 최적화된 풍부한 AI 모델 라이브러리입니다. 자체 개발한 Octopus 시리즈를 비롯해 Llama 3.1, Gemma 2, Stable Diffusion, Whisper 등 다양한 고급 모델이 포함되어 있습니다. 다양한 장치에서 효율적으로 작동하며 인터넷 연결이나 API 요금이 필요하지 않습니다.
모델 라이브러리와 함께 Model Hub는 개발자가 모델을 로컬로 배포하고 개인 요구에 따라 미세 조정 및 사용자 정의할 수 있도록 지원하는 포괄적인 오픈 소스 SDK 세트를 제공하여 더 많은 유연성을 제공합니다. 또한 사용자가 빠르게 시작할 수 있도록 돕는 실용적인 예제가 대량 있으며 개발자 커뮤니티도 구축되어 있습니다.
즉, 엔드사이드 모델의 Hugging Face입니다.
"우리가 정말로 만들고 싶은 것은 Hugging Face의 온디바이스 버전입니다." Alex Chen이 Silicon Star에 말했습니다. 모델, 도구, 리소스 및 커뮤니티를 통합하여 완전한 최종 AI 생태계를 구축하려고 노력하고 있습니다.
최근 Silicon Star는 Nexa AI의 공동 창립자인 Alex Chen 및 Zack Li와 엔드사이드 AI에 대한 생각을 나누기도 했습니다.
다음은 대화 내용입니다.
스탠포드 캠퍼스에서 최종 소규모 모델 기업가 정신까지
Silicon Star: Alex와 Zack이 모두에게 자신을 소개해주세요.
Alex Chen: 저는 현재 Nexa AI의 공동 창업자이자 CEO인 Alex입니다. 회사를 창립하기 전에는 스탠포드 대학교에서 박사 과정을 밟으며 AI와 수학에 대한 연구를 하고 있었습니다. Zack과 나는 Tongji 동문이며 약 10년 동안 서로를 알고 있으며 이전에 많은 연구와 작업에서 협력해 왔습니다. 예를 들어, 우리 둘 다 스탠포드 중국 기업가 협회의 회장을 역임했고, 그 동안 많은 창업 아이디어를 실천했지만, 그렇게 하기 위해 공식적으로 스타트업 회사를 설립한 것은 넥사가 처음이었습니다.
Zack Li: 저는 Nexa AI의 공동 창립자이자 CTO인 Zack입니다. 저는 스탠포드를 졸업한 이후로 업계에 종사해왔습니다. 먼저 Amazon Lab126에서 Echo와 Alexa를 작업한 후 Google로 가서 Google Assistant 및 Google Glass 작업을 하면서 4년간의 업계 경험을 쌓았습니다. 작년에 Alex와 함께 Nexa AI에 대해 이야기했습니다. 현재 우리가 진행하고 있는 방향은 Alex의 연구 및 나의 과거 업무 경험과 매우 일치하기 때문에 모델 교육, 고객 전달 및 모델 배포에 상대적으로 큰 이점이 있습니다.
Silicon Star: 스탠포드 캠퍼스에서 지금 사업을 시작하기까지의 과정은 어땠나요? 특히 엔드사이드 소형 모델의 방향을 선택했을 때요.
알렉스 첸: 우리 둘 다 스탠포드 중국 기업가 협회(Stanford Chinese Entrepreneurs Association)에 참여했기 때문에 처음 사업을 시작하겠다는 생각이 떠올랐습니다. 일반 학생회보다 훨씬 격식을 갖춘 모임입니다. 매년 많은 스탠포드 졸업생들이 이 단체를 떠나 창업을 하고 있습니다. 예를 들어 ZhenFund의 파트너 Yin Le, Jinshajiang의 전 파트너 Zhang Yutong, Momovovo의 CEO Li Zhifei, Xiaohongshu의 창립자 Mao Wenchao 등이 있습니다. 이 조직에 가입한 후에는 매일 많은 기업가와 투자자를 알게 될 것이며 Bay Area에서 기업 활동도 진행할 것입니다. 이 기간 동안 저는 기업가 정신의 전반적인 모습이 어떤 것인지 알게 되었고, 스스로 뭔가를 해보고 싶은 마음이 더 생기기 시작했습니다.
이것은 가장 초기의 배아 단계입니다. 우리 자신의 기술과 기업가 정신에 대한 이해가 점차 깊어짐에 따라 우리는 이번 생성 AI 라운드와 밀접하게 관련된 몇 가지 측면 프로젝트를 수행할 것입니다. 실제로 우리는 생성 AI의 몇 가지 추세를 아주 일찍 알아냈습니다. 예를 들어 GPT-3가 처음 출시되었을 때 Jasper는 GPT-3 API를 사용하여 5천만 달러의 수익을 얻었습니다. 그래서 저는 생성 AI에 집중했습니다. 초기 아이디어는 보다 애플리케이션 지향적이어서 핵심 기술을 무시하고 기존 기술을 사용하여 GPT-3의 API나 Stable Diffusion의 일부 오픈 소스 모델을 호출하여 제품을 직접 생산하는 등 좋은 제품을 만들어야 한다는 의미였습니다.
그러나 나중에 우리의 생각이 조금 바뀌었고, 여기에는 우리가 장치 측 AI를 선택한 이유도 포함되었습니다.
당시 생성 AI 시장 전반에 대한 분석을 진행했다. 우선, 현재 이메일 생성, 마케팅, AI 인터뷰와 같은 애플리케이션 중심의 회사가 많으며 각 업종 카테고리에서 수백 개의 유사한 제품을 찾을 수 있습니다. 경쟁자가 너무 많고 기술 장벽이 거의 없기 때문에 매우 비대해지고 장기적인 수익성이 없을 수 있습니다.
이것이 시장에 대한 우리의 인식입니다. 이 매우 치열한 경쟁은 우리가 경로를 변경하는 주요 이유이기도 하며, 우리는 더 기술적인 장벽이 있는 일부 직업을 살펴보기를 바랍니다. 또한 Zack은 당시 4년간 디자인 AI 작업을 진행하며 깊은 업계 통찰력을 축적했습니다. 우리는 이 분야를 분석한 결과 모두가 더 큰 클라우드 모델을 추구할 때 실제로 클라이언트 측에 매우 좋은 기회가 있다는 것을 발견했습니다.
당시에는 두 가지 추세가 고려되었습니다.
우선, 알고리즘이 지속적으로 개선되면서 작은 모델을 통해 실제로 점점 더 큰 모델 기능을 완성할 수 있게 됐다. 예를 들어, GPT-3는 초기에 175B 매개변수를 가졌을 수 있지만, 이제 7B를 갖춘 최신 모델은 기본적으로 여러 측면에서 GPT-3를 따라잡을 수 있습니다. Open AI의 자체 모델은 실제로 우리가 아는 한 GPT-3.5가 GPT-3보다 작아지고 있습니다. 이러한 추세는 알고리즘 개선 및 데이터 압축이 더욱 개선된 결과입니다.
둘째, 단말 측의 컴퓨팅 파워도 지속적으로 향상되고 있다. 예를 들어, 컴퓨터와 휴대폰 칩이 계속 발전함에 따라 로컬 배포를 위한 일부 더 큰 모델을 지원할 수 있으므로 이는 두 가지 일반적인 추세입니다.
나중에 우리는 실제 연구도 수행했습니다. 올해 1월 회사 전체가 CES에 참가하기 위해 라스베거스를 방문했습니다. CES 쇼에서 우리는 많은 현지 AI 모델 배포 사례를 보았습니다. 예를 들어 Qualcomm은 이미 다양한 단말기 측 칩에 모델을 배포하려고 시도하고 있습니다.
Silicon Star: 알고리즘이 개선되고 해시레이트 향상되면 작은 모델을 만드는 것이 가능하다고 생각하게 됩니다. CES에 가서 시장 상황을 직접 보고, 결국 엔드사이드 AI로 방향을 바꾸기로 결정했습니다.
알렉스 첸: 네.
작은 모델은 문제의 99%를 해결할 수 있습니다.
Silicon Star: 이제 스케일링 법칙이 시대에 뒤떨어졌다고 생각하시나요?
Alex Chen: 스케일링 법칙은 아직 시대에 뒤떨어지지 않았습니다. 저는 이것이 대부분의 사람들에게 여전히 유효하다고 믿습니다.
Silicon Star: 대형 모델에 비해 소형 모델의 기회는 무엇입니까?
Alex Chen: 여기서 좋은 질문이 나오는 것 같습니다. 방금 언급한 스케일링 법칙이 바로 그것입니다. 모델의 확장 법칙을 평가할 때 모델이 클수록 포괄적인 능력이 더 강해집니다. 그러나 이는 종합적인 능력 향상입니다. MMLU 지표를 예로 들면, 대형 모델은 중국어, 수학, 영어 등 다양한 MMLU 과목에서 강력한 능력을 가질 수 있습니다. 하지만 많은 경우 모든 면에서 강할 필요는 없고 특정 분야에서 탁월하면 됩니다. 우리 회사는 작은 모델이 특히 수학이나 법학 분야에 능숙하도록 특정 분야에 집중하도록 할 것입니다. 이는 수학과 법률 분야의 사람들에게 충분합니다. 그는 자신의 작업을 완료하는 데 특별히 큰 모델이 필요하지 않습니다.
또 다른 점은 스케일링 법칙을 사용해 모델의 경계를 지속적으로 돌파할 때 실제로 해결해야 할 특히 어려운 문제 중 나머지 1%가 일상생활에서 모두 접할 수 있는 것은 아닐 수도 있다는 것입니다. 예를 들어, "1+1=2"에 답하기 위해 수조 개의 매개변수가 있는 GPT-4를 사용하면 이 질문은 GPT-2로 아주 잘 답할 수 있지만 둘 사이의 매개변수는 수천에서 10,000배까지 다를 수 있습니다. 완전히 반대되는 두 모델에서도 동일한 대답을 얻을 수 있습니다. 그러면 소형 모델이 속도와 전력 소비 측면에서 대형 모델보다 훨씬 뛰어납니다.
정리하자면, 소형 모델의 장점은 무엇이라고 생각하나요? 우선, 속도가 더 빠르고 전력 효율성도 더 높습니다. 동시에 로컬 해시레이트 충분하기 때문에 클라이언트 측 배포는 기본적으로 완전히 무료입니다. 무엇보다 중요한 것은 개인의 프라이버시가 완벽하게 보장된다는 점입니다. 예를 들어, 대규모 소프트웨어 고객이 있는데 그들의 앱은 사람들이 신분증, 운전면허증 및 기타 사진 정보를 포함한 신분증을 처리하는 데 도움을 줍니다. 이러한 작업은 개인 정보 보호와 관련되어 클라우드 API를 통해 수행할 수 없으므로 이 프로세스를 구현하려면 로컬 모델을 사용해야 합니다.
Silicon Star: 무엇이 유용하고 작은 모델을 만드는가?
Alex Chen: 첫째, 속도가 빨라야 하고, 둘째, 사용자가 관심을 두는 일부 영역에서 대형 모델과 비교할 수 있어야 하며, 셋째, 완전하고 쉽게 로컬에 배포하여 개인 정보 보호를 보장하고 매우 저렴한 비용으로 제공해야 합니다.
Functional Token은 소규모 모델 함수 호출 문제를 해결하고 GPT-4o를 "패배"합니다.
Silicon Star: 현재 NEXA의 전체 제품 프레임 는 어떤 모습인가요?
잭 리: 이 질문에 답해 드리겠습니다. 우선, 우리의 고객에는 개발자와 대기업이 포함됩니다. 기업 고객을 위해 엔드투엔드 솔루션을 제공합니다. 예를 들어, 전자상거래 회사를 예로 들면, 그들이 제시한 명확한 요구 사항은 잠재적인 비즈니스 협력을 위해 인터넷 유명인의 이메일 공개를 자동화하는 것입니다. 그러면 우리 모델은 이러한 수요를 충족하고 지원 SDK를 통해 배포하도록 지원한 다음 워크플로에 추가할 수 있는 사용 가능한 제품을 제공할 수 있습니다. 그러나 당사 제품은 매우 다양하므로 맞춤화가 상대적으로 거의 필요하지 않습니다.
개발자의 경우 모델 허브로 이동하여 전자 상거래 시나리오나 관광 시나리오 등 원하는 모델을 찾은 다음 SDK를 통해 로컬로 실행할 수 있습니다. Octopus를 지원하는 것 외에도 Gemma 시리즈, Phi 시리즈 등과 같은 좀 더 클래식하고 표준적인 오픈 소스 최종 모델도 지원합니다.
Alex Chen: 적용 가능한 시나리오는 대형 모델이 현재 해결할 수 없는 특히 어려운 문제 중 1%를 제외하고 지금 언급된 모든 문제입니다. 예를 들어 정서적 교제, 이메일 작성 지원, 기사 다듬기 등은 모두 로컬에 배포된 소규모 모델을 통해 완료될 수 있습니다. 난이도가 그다지 높지 않지만 기본적으로 모든 사람의 일상생활에 부합할 수 있는 모든 언어 모델 사용 사례는 우리 제품이 모든 사람에게 제공할 수 있는 것입니다.
우리가 제공할 수 있는 강력한 기능 외에도 Octopus 모델의 가장 큰 특징은 강력한 함수 호출 기능이 있다는 것입니다.
Silicon Star: 다음으로 묻고 싶은 것은 NEXA의 핵심 기술 장점은 무엇입니까?
Alex Chen: 예, 우리의 독특한 특징은 소규모 로컬 배포 모델을 사용하여 대규모 모델의 함수 호출과 경쟁할 수 있다는 것입니다. 사용자의 자연어를 실행 가능한 명령으로 변환합니다. 예를 들어, 삼성 휴대폰을 구입하기 위해 아마존에 가고 싶다면 대화 상자에 구매 요구 사항을 직접 입력하면 자동으로 아마존이 열리고 삼성 휴대폰에 대한 설명이 입력되므로 많은 비용을 절약할 수 있습니다. 대량 작업 인터페이스 프로세스. 많은 그래픽 작업 상호 작용을 자연어 상호 작용으로 변환할 수 있는 Octopus와 동일합니다.
Silicon Star: 귀하의 논문에서는 혁신적인 Functional Token 개념을 제안하셨습니다. 그리고 AI 추론 프로세스를 어떻게 최적화합니까?
Zack Li: RAG(검색 증강 생성) 기술 기반과 같은 과거 방식에서는 문제가 발생하면 API 문서나 데이터베이스에서 관련 정보를 검색한 후 이 정보를 대형 모델에 컨텍스트로 제공해야 합니다. 의사결정. 이 프로세스는 처음에 정보를 검색하는 데 시간이 많이 걸리고 대량 의 의미 토큰을 처리해야 합니다. 컨텍스트 창이 너무 길기 때문에 추론 시간이 매우 길어집니다. 특히 해시레이트 과 크기가 제한된 장치에서는 모델 정확도와 응답 속도가 제한됩니다.
우리의 솔루션은 end-to-end 모델을 통해 직접 출력하는 것입니다. 기능 토큰(Functional Token)의 개념이 처음으로 도입되었습니다. 하나의 토큰을 사용하여 함수 이름, 매개변수 및 문서를 포함한 전체 기능 정보를 나타내므로 컨텍스트 길이가 95% 단축됩니다. 사용자가 자연어 명령을 입력하면 시스템은 복잡한 검색 단계를 제거하고 작업의 핵심 사항을 신속하게 식별하며 해당 기능 토큰을 트리거하여 필요한 출력을 직접 생성하거나 특정 기능 호출을 실행할 수 있습니다.
출력 레이어에서는 Functional Token이 전체 기능 설명을 대체하기 때문에 기본적으로 10개의 토큰 내에서 출력을 제어할 수 있어 더욱 간결합니다. 이렇게 하면 컴퓨팅 리소스와 컨텍스트 공간을 크게 절약하는 동시에 처리 속도를 크게 높일 수 있습니다. 특히 빠른 응답이 요구되는 모바일 기기나 엣지 컴퓨팅 기기에 적합합니다.
실리콘스타: 실제 검증 후 성능은 어떤가요?
Zack Li: GPT-4o는 추론을 위해 여러 GPU 클러스터를 사용하는 매우 큰 1000조 수준의 매개변수 모델이지만 비교를 위해 단일 카드 A100만 사용합니다. 이렇게 극도로 불공정한 하드웨어 조건에서도 Octopus v2 모델은 여전히 GPT-4o보다 4배 빠릅니다.
Silicon Star: Octopus v2는 당시 X에서 매우 강력한 반응을 보였습니다. Octo-net, Octopus v3 및 Octo-planner도 있는 것으로 확인됩니다. 이러한 모델에는 고유한 장점이 있습니까, 아니면 일련의 반복입니까?
Zack Li: v2, v3 to planner는 v3에 다중 모드 기능이 있고 planner에 다단계 계획 기능이 있는 일련의 반복입니다. Octo-net은 지점과 동일하며 장치-클라우드 협업을 지원합니다.
Silicon Star: 현재 가장 발전된 모델의 성능은 어떻습니까?
Zach Li: 우리의 v3 모델은 현재 기업용 최신 모델이며 1B 매개변수 하에서 다중 양식을 지원할 수 있습니다. 국내외에 점차적으로 우수한 엔드사이드 기업이 등장하고 있을 수 있지만, 현재 멀티모달이고 우리의 함수 호출 정확도를 달성할 수 있는 1B 이하의 경쟁업체는 없으며, 2B 이하의 경쟁사는 아직 본 적이 없습니다.
'Hugging Face의 기기측 버전' 만들기
Silicon Star: 사실 스타트업 외에도 OpenAI, Google, Meta 등 많은 거대 기업들도 작은 모델을 출시하기 시작했습니다. 위협을 느끼시나요?
Zack Li: 물론 경쟁이 치열하다는 걸 느낄 수 있어요. 하지만 먼저 최종 테스트 모델에서 가장 어려운 함수 호출인 날카로운 도구를 선택합니다. 동시에 우리는 Model Hub와 계속 결합하여 더 많은 개발자가 우리와 함께하도록 장려할 수 있습니다. 이는 Hugging Face 경로를 택하는 것과 같습니다. 따라서 클라이언트 측 모델이 점차 복잡해지기 시작했지만 더 많은 개발자가 이러한 모델을 사용할 수 있도록 좋은 모델과 플랫폼을 구축해야 하는 것이 우리의 차별화 요소 중 하나입니다.
Alex Chen: 사실 우리가 정말 만들고 싶은 것은 Hugging Face의 온디바이스 버전입니다. Hugging Face는 클라우드 개발자를 위한 AI 연구 커뮤니티입니다. Python 및 NVIDIA GPU를 기반으로 하는 다양한 모델 검색 및 사용 프레임 있지만 모두 서버측 개발자를 위해 제공됩니다. 차이점은 모델을 로컬로 배포하려는 경우 이러한 모델 배포에 필요한 파일 형식과 소프트웨어 지원이 다르다는 것입니다. 예를 들어 Hugging Face는 C 또는 C++를 사용하는 반면 이것이 핵심 차이점입니다.
SDK와 같은 일부 소프트웨어 라이브러리가 있고 자체 개발된 Octopus 모델이 있으며 Microsoft 및 Google의 다른 소규모 모델의 로컬 배포도 지원할 것입니다. 이것이 우리가 전체를 생각하는 방식입니다. 실제로 클라우드를 살펴보면 일반적으로 가치 있는 두 회사는 OpenAI와 Hugging Face입니다. 우리는 실제로 OpenAI와 Hugging Face의 장치측 조합과 같습니다. 한편으로 우리는 엔드사이드 테스트 모델을 직접 만들고 있으며, 다른 한편으로는 이 플랫폼을 사용하여 모든 사람이 엔드사이드 모델을 사용할 수 있도록 더욱 도움을 주고 싶습니다.
따라서 우리의 미래 비즈니스 모델은 일부 온디바이스 개발자에게 구독 기반 수익을 제공하기 위해 이 온디바이스 AI 커뮤니티를 유지하는 데 더 중점을 둘 것입니다. 또한 이러한 개발자 뒤에 있는 기업을 위해 일부 엔터프라이즈 서비스를 제공할 것입니다.
Silicon Star: 귀하의 플랫폼에서는 Octopus를 사용할 수 있을 뿐만 아니라 개인 개발자나 회사에서 출시한 엔드사이드 AI도 많이 볼 수 있습니다.
잭 리: 네. 우리는 이제 막 플랫폼을 축적하기 시작했고, 5월에 테스트를 진행했고, 그 후 약 1,000명의 개발자가 내부적으로 다듬어져 정식 출시를 준비했습니다. 또한 이 제품을 더 많은 사람들에게 소개하고 피드백을 확인할 수 있는 테스트 링크를 제공할 수 있기를 바랍니다.
공식 출시된 모델 허브는 NEXA AI의 메인 웹사이트 페이지가 됩니다. 주요 제품은 필요한 최종 모델을 찾을 수 있는 플랫폼입니다. 이러한 이전 연구 작업은 당사의 독립적인 연구 개발 역량을 입증할 수 있을 뿐만 아니라 기업에 진출하는 기회를 제공할 수도 있습니다.
모델허브에서는 다양한 기업의 최종 테스트 모델을 보실 수 있습니다. 우리는 클라이언트 측을 더 잘 알고 있기 때문에 클라이언트 측에서 일반적으로 사용되는 GGUF 및 ONNX와 같은 형식에 중점을 둡니다. 예를 들어 Meta Llama3.1-8b의 경우 int4 및 int8과 같이 다양한 정밀도로 양자화할 수 있습니다. 이 압축 모델은 클라우드 환경에서 실행되는 Pytorch 및 Python과 달리 클라이언트 측에서 실행하는 데 특히 적합합니다.
소비자 GPU에는 최대 24G의 RAM이 있으며 개발자가 로컬에서 전체 크기 모델을 실행하는 것은 불가능합니다. 우리는 출판사가 일괄 압축 및 양자화를 수행하도록 도울 수 있습니다. 또한 사용자가 노트북이나 휴대폰에서 다양한 모달 모델을 쉽게 사용할 수 있도록 하는 SDK 도구도 있으며, 로컬 해시레이트 에 전적으로 의존하고 매우 빠른 UI 디스플레이도 제공합니다.
Hugging Face와 마찬가지로 트랜스포머 패키지의 불은 불입니다. 여기에서 모델을 찾을 수 있을 뿐만 아니라 모델을 실행하고 2차 개발도 수행할 수 있습니다. 이것이 사용자 유지 능력의 핵심이겠죠? 우리는 실제로 이것을 만들었습니다.
사업 시작은 제품에 따라 다릅니다.
Silicon Star: 다음 질문은 이전에 논의되었을 수도 있습니다. 이제 투자자들은 왜 당신에게 질문할 것입니다. 그렇다면 당신의 목표 고객이 다른 경쟁사 대신 NEXA를 선택하는 확신 포인트는 무엇입니까?
Zack Li: 첫 번째 자신감은 모델의 장점입니다. 우리 모델의 함수 호출 정확도가 매우 높고 크기도 매우 가볍습니다. 두 번째는 사용자의 다양한 하드웨어 요구 사항, 운영 플랫폼, 메모리 및 오버헤드에 따라 다양한 가속 솔루션을 사용자 정의할 수 있다는 점입니다. 즉, 우리 모델은 다른 모델보다 우수할 뿐만 아니라 이 모델을 더 잘 배포할 수 있도록 지원할 수 있는 프레임 도 갖추고 있습니다.
Silicon Star: OpenAI나 Google을 대면 때 이러한 장점이 유효합니까?
Zack Li: OpenAI는 오랫동안 최종 테스트 모델 분야에 직접 접근하지 않을 것이라고 생각합니다. GPT-4o mini는 여전히 클라우드 모델입니다. 물론 구글은 자체 생태계는 물론 인재와 장비의 장점도 갖고 있다. 하지만 안드로이드 생태계 외부의 고객, 특히 엔드사이드 하드웨어 영역에서 고객을 돌볼 것이라고는 상상하기 어렵습니다. 자체 픽셀 생태계 외부의 고객을 제외하고는 모델 허브와 같은 일을 하지 않을 것입니다.
Silicon Star: 최신 제품 진행 상황과 다음 최적화 방향을 공유해 주실 수 있나요?
Zack Li: 앞서 언급한 Model Hub 및 SDK 외에도 일련의 후속 연구 작업이 있으며, 긴 텍스트 처리를 지원하는 압축 모델도 개발 중입니다. 앞으로는 다양한 시나리오에 대한 서비스를 제공할 예정입니다. 실제로 클라이언트 측에는 많은 시나리오가 있습니다. 함수 호출은 시나리오이며 그 밖에도 질문 답변 기능, 이미지 이해와 같은 다중 모드 기능, 오디오 처리 등. 이러한 지침은 모두 관련된 핵심 영역입니다.
Silicon Star: 기기 측 AI 스타트업으로서 당신의 과제는 무엇입니까?
Zack Li: 일부 주요 제조업체를 포함하되 이에 국한되지는 않습니다. 특히 1조 단위의 대형 모델을 개발할 수 있는 능력이 있다면 증류나 가지치기를 통해 많은 경험을 재사용할 수 있습니다. 하지만 우리는 최종 모델을 만드는 데 있어 이 분야에 대한 우리만의 독특한 통찰력과 이해를 갖고 있기 때문에 각각의 장점이 있다고 생각합니다.
그런 다음 기존 커뮤니티 플레이어가 있습니다. Hugging Face는 마지막에 테스트해야 하는 경우에도 좋은 예입니다. 하지만 현재는 과거의 모든 아키텍처를 포함한 Hugging Face의 전체 생태계가 클라우드 아키텍처이고, 서비스도 클라우드 서비스인 것으로 보입니다. 그래서 변신하는 게 확실히 더 고통스러울 것 같아요. 프로젝트로 한다면 그 추진력과 속도는 그리 빠르지 않을 것이다.
Silicon Star: 장치 측 모델을 커뮤니티와 결합하고 상대적으로 시장 초기 단계에 있습니다. 오프라인 개발자 활동 프로모션을 해보셨나요?
Zack Li: Alex와 저는 이제 대량 모델 개발 교육과 일부 인프라 관련 작업을 수행해야 합니다. 우리 제품 및 마케팅 동급생이 Bay Area에서 많은 자원을 축적했다는 사실을 포함하여 활동을 담당하고 있습니다. 몇 년. 8월 25일 Nexa는 Hugging Face, StartX, Stanford Research Park, Groq 및 AgentOps와 함께 Stanford에서 공동으로 Hackathon을 개최할 예정입니다. 오프라인으로 진행되는 것은 이번이 처음입니다.
Nexa AI가 주최하는 슈퍼 AI 에이전트 해커톤. 이미지 출처: NEXA AI
실리콘 스타: 마지막 질문 두 가지. 실리콘 밸리에서 오랜 세월을 보낸 후, 당신이 매우 존경하는 회사나 사람이 있습니까?
Zack Li: 저는 여전히 Elon Musk를 선호합니다. 그의 말 중 하나는 "터프하고 차분하다"입니다. 이는 그가 사물에 대한 요구 사항이 높고 큰 어려움에도 불구하고 침착함을 유지할 수 있다는 의미입니다. 나 또한 이 방향으로 발전하기 위해 열심히 노력하고 있습니다. 그렇다면 그는 동시에 수많은 회사를 처리할 수 있고 각 회사에는 서로 다른 문제를 대면 특정 방법이 있다고 생각합니다. 장기적인 비전과 강력한 실행력을 갖고 있다고 생각합니다.
하지만 그 사람이 좀 더 현실적이라면 저는 사실 레이준을 더 좋아해요. 저는 후베이 출신이고 Lei Jun은 후베이 성 셴타오 출신이기 때문입니다. 그는 매우 부지런하고 접근하기 쉬우며 많은 문제를 손으로 생각할 수 있는 전형적인 개발자 기질을 가지고 있습니다. 경영자로서든, 투자자로서든, 기업가로서든 그는 매우 훌륭합니다.
실리콘스타: 사업을 시작하고 나서 가장 크게 느낀 점은 무엇이었나요?
Zack Li: 사업을 시작할 때 중요한 것은 제품이라고 생각합니다. 시장은 나에게 가장 공정하고 공평한 피드백을 줄 것이기 때문에 일을 완수하는 것이 가장 중요합니다. 장기적인 목표를 갖고 힘들지만 옳은 일을 꾸준히 수행하세요. 예를 들어, 회사의 초기 작업 중 일부는 근본적인 혁신이 별로 없는 매우 제품 지향적일 수 있습니다. 우리가 갑자기 엄청난 트래픽과 모멘텀을 갖게 된 근본적인 이유는 우리가 엔드 사이드 모델의 하단 레이어를 최적화하고, 전례 없는 훈련 방법을 제안했으며, 특허 보호를 신청하기 위해 직접 논문을 발표했기 때문입니다. 이러한 기술이 없다면 두각을 나타내고 지금과 같은 영향력을 발휘하는 것은 불가능할 것입니다. 소위 페이퍼컴퍼니의 경우, 제품에 대한 강한 통찰력이 없으면 촘촘한 포위에서 벗어날 수 있는 방법이 거의 없다는 것을 뼈저리게 느낍니다.
Silicon Star: 그렇다면 Perplexity가 어떤 회사에 속한다고 생각하시나요?
Zack Li: 제품에 대한 강력한 통찰력을 갖고 있을 뿐입니다.
*Nexa AI의 최신 엔드사이드 AI 모델 커뮤니티인 Mobile Hub가 8월 22일 공식 웹사이트에 출시되었습니다. 직접 링크는 https://www.nexaai.com/models 입니다.
이 기사는 WeChat 공개 계정 "Silicon Star Pro" 에서 가져온 것입니다. 저자: Jessica, 36 Krypton은 허가를 받아 게시되었습니다.



