훈련 비용이 10만 달러인 소형 모델은 특정 작업에서 GPT-4o보다 성능이 뛰어나고 대기 시간이 99배 더 짧습니다.

avatar
36氪
05-14
이 기사는 기계로 번역되었습니다
원문 표시

现有的SOTA级别大语言模型固然拥有较强智能,在部分任务上达到或超过了人类的水准,但他们的参数尺寸动辄达到数千亿甚至万亿,无论是训练,部署,还是推理,都成本高昂。对于企业和开发者来说,这些SOTA模型在一些相对简单,但需要大规模和高并发的任务上,未必是综合成本及性能的最优选择。

一家叫Fastino的早期初创公司看到了这个痛点,使用低端游戏GPU,以平均不到10万美元的成本,训练出一系列称为"任务特定语言模型"(TLMs,Task-Specific Language Models)的小型模型,能够在特定任务上性能媲美大型语言模型,并且推理速度快99倍。

近日,Fastino获得由Khosla Ventures领投的1750万美元种子轮融资,Insight Partners,Valor Equity Partners,以及知名天使投资人前Docker首席执行官Scott Johnston和Weights & Biases首席执行官Lukas Biewald参与。在2024年11月,Fastino获得M12(微软旗下)和Insight Partners领投的700万美元前种子轮融资,累计融资近2500万美元。

连续创业者用小模型,帮企业摆脱用户越多,烧钱越多的窘境

Fastino由Ash Lewis(CEO)和George Hurn-Maloney(COO)共同创立,两人都是连续创业者,尤其Ash Lewis此前还参与创立过DevGPT、Ashtv AI等AI原生公司。

他们也组织了一个成员来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果智能的强大技术团队。可以从底层技术上去革新模型,从而训练出"任务特定语言模型"(TLM)。

10万美元成本训练的TLM模型,性能不弱,推理速度比LLM快99倍

在Scaling Law的指导下,AI模型们都变得越来越大,数千亿,上万亿参数的SOTA模型们,确实在智能上持续进步,甚至在某些初级任务上代替了人力(客服,会议记录等)。但是大尺寸的模型们,同时带来的是高成本,无论是数千万美元的训练成本,还是高昂的部署和推理成本,都让它们在一些任务中,经济性不那么突出。

即便是OpenAI这样融资上百亿美元的头部基础模型公司,已经获得了接近10亿的周活用户,却难逃用户越多,烧钱越多,入不敷出的窘境。

Fastino的创始人Ash Lewis在谈及创业初衷时也表示:"我们上一家创业公司在爆红后,基础设施成本飙升。有段时间,我们在语言模型上的开支甚至超过了整个团队的费用。这促使我们创立了这家公司。"

除了模型尺寸带来的高昂运行成本之外,另一个矛盾是模型的通用性和专用性,大尺寸的模型固然带来了强智力和通用性,但是对于开发者来说,在一些特定专用任务上性能却不一定突出,还要为通用性带来的大尺寸额外付出成本,而且大尺寸模型更慢的运行速度,也让用户体验更差。目前的AI工作负载大多要求精准、速度和可扩展性,而非泛化的推理能力。

Fastino的联合创始人George Hurn-Maloney表示:"AI开发者不需要一个在无数无关数据点上训练的大语言模型,他们需要适合其任务的正确模型。所以我们推出了高精度、轻量化的模型,让开发者能无缝集成。"

Fastino的"任务特定语言模型"(TLMs,Task-Specific Language Models),专为需要低延迟、高精度AI的开发者和企业设计,在定位上,不针对消费级用户,不需要通用性。

Fastino表示,它们的TLM结合基于Transformer的注意力机制,但在架构、预训练和后训练阶段引入任务专精。它们优先考虑紧凑性、运行时的硬件适应性,同时不牺牲任务准确性。

这种架构和技术的创新,使TLM模型能够在低端硬件(如CPU和低端GPU)上高效运行,同时提升专注任务的准确性。性能提升源于系统性地消除参数冗余和架构低效,而非依赖硬件特定技巧。对比OpenAI的GPT-4o的4000ms,它的延迟低至100ms,快99倍。

在性能方面,Fastino对比了TLM模型在意图检测、垃圾信息过滤、情感倾向分析、有害言论过滤、主题分类和大型语言模型防护等基准与OpenAI标杆模型GPT-4o的性能对比。结果显示,其基准性能的F1分数比GPT-4o高出17%。

注:F1分数是评估分类模型性能的指标,它是精确率和召回率的调和平均数,综合衡量模型在正确预测正例和捕捉所有正例上的表现。

Fastino的TLM模型并非单个模型,而是针对每个特性用例训练的一组模型,它的首批模型能够应对一些需求最明确和广泛的企业和开发者核心任务,例如:

  • 文本摘要:从长篇或嘈杂文本中生成简洁、准确的摘要,适用于法律文件、支持日志和研究资料。
  • 函数调用(Function Calling):将用户输入转化为结构化API调用,适配代理系统或工具型聊天机器人。
  • 文本转JSON:从杂乱的非结构化文本中提取干净、适合生产的JSON,适用于搜索查询解析、文档处理和合同分析。
  • 个人身份信息(PII)屏蔽:以零样本方式屏蔽敏感或个人身份信息,支持用户定义的实体类型。
  • 文本分类:为任意自然语言文本打标签,内置垃圾信息检测、毒性过滤、越狱阻止、意图分类和主题检测等功能。
  • 脏话过滤:实时检测并屏蔽不当或品牌不安全的语言。
  • 信息提取:从文档、日志或自然语言输入中提取结构化数据,如实体、属性和上下文信息。

在收费模式上,尽管是针对企业而非消费者,但Fastino没有采用目前AI模型公司主流的以用量定价(例如GPT-4o的输入价格为2.5美元/百万tokens,输出价格为10美元/百万tokens),而是采用了订阅式,这种方式对于初级开发者和中小企业较为友好。

具体来说,它针对个人开发者,每月有1万次免费请求,Pro用户每月10万次请求,仅花费45美元,而团队用户300万次请求,每月1275美元。Pro用户和团队用户,额外增加了一些好处,例如更快的模型速度,更安全的模型访问,以及更大的上下文窗口等。

而能够以这种方式针对开发者和小企业用户提供模型,是建立在Fastino本身极低的模型运行成本之上的。

此外,对于企业客户,Fastino的TLM可部署在客户的虚拟私有云、本地数据中心或边缘设备上,使企业能够在保留敏感信息控制权的同时,利用先进的人工智能能力。

目前,Fastino的TLM已在多个行业产生影响,从金融和医疗领域的文档解析到电子商务中的实时搜索查询智能,更有财富500强企业正利用这些模型优化运营、提升效率。

스케일링 법칙에 따라, 소규모 모델은 기업 애플리케이션에서 독특한 장점을 가지고 있습니다

소규모 모델의 저비용, 저지연, 그리고 특정 작업에서 대규모 범용 모델에 뒤지지 않는 장점은 사실 Fastino만의 발견이 아닙니다. 모델 제조업체 중 Cohere와 Mistral은 매우 강력한 소규모 모델을 제공하고 있으며, 국내 대기업인 알리클라우드의 Qwen3도 4B, 1.7B, 심지어 0.6B 모델을 보유하고 있습니다. 이전에 소개했던 기업 유니콘 Writer도 70만 달러의 훈련 비용만으로 Palmyra 시리즈의 소규모 모델을 가지고 있습니다.

대규모 모델의 지능이 이미 상당한 수준에 도달했을 때, 왜 기업과 개발자들이 여전히 소규모 모델을 필요로 하는 걸까요? 그 근본 원인은 비용, 추론 지연, 능력 매칭에 있습니다.

비용 측면에서 가장 직관적인 것은 배포 비용과 추론 비용입니다. 기업이 높은 보안을 추구한다면 일부 업무를 개인 배포에 할당해야 하는데, 수천억 개의 매개변수를 가진 대규모 모델의 대규모 상업용 추론 비용은 소규모 모델의 훈련 비용을 초과할 수 있습니다. 또한, 틱톡이나 위챗과 같이 사용자 규모가 10억 명인 애플리케이션의 경우 높은 동시성을 추구해야 하는데, 소규모 모델과 대규모 모델의 고성능 추론 비용 차이는 지수적입니다.

대규모 C2C 애플리케이션을 예로 들면, 대규모 모델 사용 시 추론 지연 시간이 소규모 모델보다 훨씬 높습니다. 소규모 모델은 지연 시간을 마이크로초 수준으로 줄일 수 있지만, 대규모 모델은 사용 시 항상 지연이 발생하며, 이는 사용자 경험에 매우 직관적인 영향을 미칩니다.

규모는 크지만 특정 사용 사례의 경우, 범용 능력이 실제로 필요하지 않으며 대규모 및 소규모 모델의 성능 차이가 미미합니다. 따라서 대규모 모델이 가져오는 추가 비용은 기업에게 불필요할 수 있습니다.

이 세 가지 측면은 모두 스케일링 법칙 아래에서 소규모 모델에 충분한 생존 공간을 제공합니다. 이 원리는 중국의 AI 애플리케이션 창업자들에게도 동일하게 적용됩니다. 다행히 중국의 모델 오픈소스 생태계는 점점 성숙해지고 있으며, 이미 충분히 강력한 소규모 모델을 보유하고 있어 창업자들은 자신의 요구 사항을 기반으로 후속 훈련만 수행하면 적합한 모델을 얻을 수 있습니다.

본 기사는 위챗 공식 계정 "알파 스타트업스"(ID: alphastartups)에서 가져왔으며, 작성자는 비범한 창업자를 발견하는 36kr이 허가를 받아 게시했습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트