Một mô hình nhỏ có chi phí đào tạo là 100.000 đô la vượt qua GPT-4o trong nhiệm vụ cụ thể và có độ trễ thấp hơn 99 lần

05-14

Bài viết này được dịch máy

Xem bản gốc

Các mô hình ngôn ngữ lớn cấp SOTA hiện tại chắc chắn có trí thông minh cao và đã đạt hoặc vượt quá trình độ của con người trong một số nhiệm vụ, nhưng kích thước tham số của chúng dễ dàng lên tới hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ, khiến việc đào tạo, triển khai và lập luận trở nên rất tốn kém. Đối với các doanh nghiệp và nhà phát triển, các mô hình SOTA này có thể không phải là lựa chọn tối ưu xét về mặt chi phí và hiệu suất toàn diện cho một số nhiệm vụ tương đối đơn giản, đòi hỏi quy mô lớn và tính đồng thời cao.

Một công ty khởi nghiệp ban đầu có tên Fastino đã nhận thấy điểm yếu này và đã sử dụng GPU chơi game cấp thấp để đào tạo sê-ri các mô hình nhỏ gọi là Mô hình ngôn ngữ dành riêng nhiệm vụ(TLM) với chi phí trung bình dưới 100.000 đô la. Các mô hình này có thể thực hiện tốt như các mô hình ngôn ngữ lớn trong nhiệm vụ cụ thể và suy luận nhanh hơn 99 lần.

Gần đây, Fastino đã nhận được khoản tài trợ hạt giống trị giá 17,5 triệu đô la do Khosla Ventures dẫn đầu, với sự tham gia của Insight Partners, Valor Equity Partners và các nhà đầu tư thiên thần có tiếng như cựu CEO Docker Scott Johnston và CEO Weights & Biases Lukas Biewald. Vào tháng 11 năm 2024, Fastino đã nhận được khoản tài trợ hạt giống trị giá 7 triệu đô la do M12 (thuộc sở hữu của Microsoft) và Insight Partners dẫn đầu, nâng tổng số tiền tài trợ lên gần 25 triệu đô la.

Các doanh nhân nối tiếp sử dụng các mô hình nhỏ để giúp các công ty thoát khỏi tình trạng phải đốt nhiều tiền hơn khi có nhiều người dùng hơn

Fastino được đồng sáng lập bởi Ash Lewis (Giám đốc điều hành) và George Hurn-Maloney (Giám đốc điều hành), cả hai đều là những doanh nhân khởi nghiệp. Đặc biệt, Ash Lewis trước đây đã tham gia thành lập các công ty AI gốc như DevGPT và Ashtv AI.

Họ cũng đã thành lập một đội ngũ kỹ thuật mạnh với các thành viên đến từ Google DeepMind, Đại học Stanford, Đại học Carnegie Mellon và Apple Intelligence. Mô hình có thể được cải tiến từ công nghệ cơ bản để đào tạo "mô hình ngôn ngữ theo nhiệm vụ cụ thể" (TLM).

Mô hình TLM, tốn 100.000 đô la để đào tạo, có hiệu suất tốt và tốc độ suy luận nhanh hơn LLM 99 lần.

Theo sự hướng dẫn của Luật mở rộng quy mô, các mô hình AI đang ngày càng trở nên lớn hơn. Các mô hình SOTA với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số thực sự đang tiếp tục cải thiện trí thông minh và thậm chí đã thay thế sức lao động của con người trong một số nhiệm vụ chính (dịch vụ khách hàng, biên bản cuộc họp, v.v.). Tuy nhiên, các mô hình quy mô lớn cũng đi kèm chi phí cao, có thể là hàng chục triệu đô la chi phí đào tạo hoặc chi phí triển khai và suy luận cao, khiến chúng kém kinh tế hơn trong một số nhiệm vụ.

Ngay cả một công ty mô hình cơ bản hàng đầu như OpenAI, đã huy động được hàng chục tỷ đô la và có gần 1 tỷ người dùng hoạt động hàng tuần, cũng không thoát khỏi tình thế tiến thoái lưỡng nan là phải chi nhiều hơn số tiền kiếm được vì càng có nhiều người dùng thì càng đốt nhiều tiền.

Ash Lewis, người sáng lập Fastino, cũng chia sẻ khi nói về ý định ban đầu khi khởi nghiệp: "Sau khi công ty khởi nghiệp trước đây của chúng tôi trở nên phổ biến, chi phí cơ sở hạ tầng tăng vọt. Trong một thời gian, chi phí của chúng tôi cho các mô hình ngôn ngữ thậm chí còn vượt quá chi phí của toàn bộ đội ngũ. Điều này thúc đẩy chúng tôi thành lập công ty này".

Ngoài chi phí vận hành cao do quy mô mô hình, một mâu thuẫn khác là tính linh hoạt và chuyên môn hóa của mô hình. Các mô hình kích thước lớn chắc chắn mang lại trí thông minh và tính linh hoạt cao, nhưng đối với các nhà phát triển, hiệu suất thực hiện một số nhiệm vụ đặc biệt cụ thể có thể không nổi bật. Họ cũng phải trả giá thêm chi phí cho kích thước lớn do tính linh hoạt mang lại. Ngoài ra, tốc độ chạy chậm hơn của các model cỡ lớn cũng khiến trải nghiệm của người dùng trở nên tệ hơn. Hầu hết khối lượng công việc AI hiện nay đều yêu cầu độ chính xác, tốc độ và mở rộng hơn là khả năng suy luận tổng quát.

George Hurn-Maloney, đồng sáng lập Fastino, cho biết: "Các nhà phát triển AI không cần một mô hình ngôn ngữ lớn được đào tạo trên vô số điểm dữ liệu không liên quan, họ cần mô hình phù hợp cho nhiệm vụ của mình". “Vì vậy, chúng tôi đã tung ra một mô hình nhẹ, có độ chính xác cao mà các nhà phát triển có thể tích hợp liền mạch.”

"Mô hình ngôn ngữ dành riêng cho nhiệm vụ" (TLM) của Fastino được thiết kế dành cho các nhà phát triển và doanh nghiệp cần AI có độ trễ thấp, độ chính xác cao. Chúng không nhắm tới người dùng tiêu dùng và không yêu cầu tính phổ quát.

Fastino cho biết TLM của họ kết hợp cơ chế chú ý dựa trên Transformer nhưng đưa ra chuyên môn hóa nhiệm vụ trong kiến trúc, giai đoạn trước đào tạo và sau đào tạo. Họ ưu tiên tính nhỏ gọn, khả năng thích ứng của phần cứng khi chạy mà không làm giảm độ chính xác nhiệm vụ.

Sự đổi mới về mặt kiến trúc và kỹ thuật này cho phép mô hình TLM chạy hiệu quả trên phần cứng cấp thấp (như CPU và GPU cấp thấp) đồng thời cải thiện độ chính xác của nhiệm vụ tập trung. Hiệu suất tăng lên nhờ loại bỏ một cách có hệ thống sự dư thừa tham số và sự kém hiệu quả về mặt kiến trúc thay vì dựa vào các thủ thuật dành riêng cho phần cứng. So với độ trễ 4000ms của GPT-4o của OpenAI, độ trễ của nó chỉ thấp tới 100ms, nhanh hơn 99 lần.

Về hiệu suất, Fastino đã so sánh hiệu suất của mô hình TLM với mô hình chuẩn GPT-4o của OpenAI trong các tiêu chuẩn như phát hiện ý định, lọc thư rác, phân tích tình cảm, lọc lời nói có hại, phân loại chủ đề và bảo vệ mô hình ngôn ngữ lớn. Kết quả cho thấy điểm hiệu suất cơ bản F1 của nó cao hơn 17% so với GPT-4o.

Lưu ý: Điểm F1 là chỉ báo đánh giá hiệu suất của mô hình phân loại. Đây là giá trị trung bình hài hòa của độ chính xác và khả năng thu hồi, đồng thời đo lường toàn diện hiệu suất của mô hình trong việc dự đoán chính xác các ví dụ tích cực và nắm bắt tất cả các ví dụ tích cực.

Mô hình TLM của Fastino không phải là một mô hình đơn lẻ mà là một nhóm các mô hình được đào tạo cho từng trường hợp sử dụng tính năng. Lô mô hình đầu tiên của nó có thể xử lý một số nhiệm vụ cốt lõi rõ ràng và phổ biến nhất của các doanh nghiệp và nhà phát triển, chẳng hạn như:

Tóm tắt văn bản : Tạo bản tóm tắt ngắn gọn, chính xác từ các văn bản dài hoặc phức tạp cho các tài liệu pháp lý, nhật ký hỗ trợ và nghiên cứu.
Gọi hàm : Chuyển đổi dữ liệu đầu vào của người dùng thành các lệnh gọi API có cấu trúc để thích ứng với hệ thống tác nhân hoặc chatbot dạng công cụ.
Chuyển văn bản thành JSON : Rút JSON sạch, sẵn sàng sử dụng từ văn bản lộn xộn, không có cấu trúc, phù hợp để phân tích truy vấn tìm kiếm, xử lý tài liệu và phân tích hợp đồng.
Che giấu thông tin nhận dạng cá nhân (PII) : Che giấu thông tin nhạy cảm hoặc thông tin nhận dạng cá nhân một cách hoàn toàn, hỗ trợ các loại thực thể do người dùng xác định.
Phân loại văn bản : Gắn nhãn cho bất kỳ văn bản ngôn ngữ tự nhiên nào, tích hợp tính năng phát hiện thư rác, lọc độc hại, ngăn chặn bẻ khóa, phân loại mục đích và phát hiện chủ đề.
Lọc ngôn từ tục tĩu : Phát hiện và chặn ngôn ngữ không phù hợp hoặc không an toàn cho thương hiệu theo thời gian thực.
Rút thông tin : Rút dữ liệu có cấu trúc như thực thể, thuộc tính và thông tin theo ngữ cảnh từ tài liệu, nhật ký hoặc dữ liệu đầu vào bằng ngôn ngữ tự nhiên.

Về mô hình tính phí, mặc dù hướng đến doanh nghiệp chứ không phải người tiêu dùng, Fastino không áp dụng mức giá dựa trên mức sử dụng phổ biến hiện nay của các công ty theo mô hình AI (ví dụ: giá đầu vào của GPT-4o là 2,5 đô la Mỹ/triệu token và giá đầu ra là 10 đô la Mỹ/triệu token). Thay vào đó, nó áp dụng mô hình đăng ký, thân thiện hơn với các nhà phát triển mới vào nghề và các doanh nghiệp vừa và nhỏ.

Cụ thể, gói này nhắm đến các nhà phát triển cá nhân với lần yêu cầu miễn phí mỗi tháng, người dùng Pro với lần yêu cầu mỗi tháng chỉ với 45 đô la và đội ngũ với 3 lần yêu cầu với 1.275 đô la mỗi tháng. Người dùng Pro và Đội ngũ có thêm các lợi ích như tốc độ mô hình nhanh hơn, quyền truy cập mô hình an toàn hơn và cửa sổ ngữ cảnh rộng hơn.

Khả năng cung cấp mô hình cho các nhà phát triển và người dùng doanh nghiệp nhỏ theo cách này dựa trên chi phí vận hành mô hình cực kỳ thấp của Fastino.

Ngoài ra, đối với khách hàng doanh nghiệp, TLM của Fastino có thể được triển khai trên đám mây sở hữu tư nhân ảo, trung tâm dữ liệu cục bộ hoặc thiết bị biên của khách hàng, cho phép doanh nghiệp tận dụng các khả năng AI tiên tiến trong khi vẫn kiểm soát được thông tin nhạy cảm.

Hiện nay, TLM của Fastino đã có tác động đến nhiều ngành công nghiệp, từ phân tích tài liệu trong lĩnh vực tài chính và y tế đến trí tuệ truy vấn tìm kiếm theo thời gian thực trong thương mại điện tử. Các công ty thuộc danh sách Fortune 500 đang sử dụng các mô hình này để tối ưu hóa hoạt động và nâng cao hiệu quả.

Theo Luật mở rộng quy mô, các mô hình nhỏ có những lợi thế độc đáo trong các ứng dụng doanh nghiệp

Các mô hình nhỏ có ưu điểm là chi phí thấp, độ trễ thấp và không thua kém các mô hình chung có kích thước lớn trong nhiệm vụ cụ thể. Trên thực tế, Fastino không phải là công ty duy nhất phát hiện ra cơ hội này. Trong số các nhà sản xuất mô hình, Cohere và Mistral đều cung cấp các mô hình kích thước nhỏ rất mạnh mẽ; các nhà sản xuất lớn trong nước, như Qwen3 của Alibaba Cloud, cũng có các mẫu 4B, 1.7B và thậm chí là 0.6B. Writer, công ty kỳ lân mà chúng tôi đã giới thiệu trước đây, cũng có sê-ri Palmyra gồm các mô hình nhỏ chỉ yêu cầu chi phí đào tạo là 700.000 đô la.

Tại sao các công ty và nhà phát triển vẫn cần những mô hình nhỏ khi mà các mô hình quy mô lớn đã đủ thông minh? Nguyên nhân gốc rễ nằm ở chi phí, độ trễ suy luận và khả năng phù hợp.

Trị giá. Những chi phí trực quan nhất là chi phí triển khai và chi phí suy luận. Nếu một doanh nghiệp theo đuổi mục tiêu bảo mật cao, họ chắc chắn sẽ triển khai một phần việc kinh doanh sở hữu tư nhân. Chi phí suy luận thương mại quy mô lớn của các mô hình quy mô lớn với hàng trăm tỷ tham số có thể vượt quá chi phí đào tạo của các mô hình nhỏ. Hơn nữa, đối với các ứng dụng như Tik Tok và WeChat có hơn 1 tỷ người dùng, cần phải theo đuổi tính đồng thời cao. Sự khác biệt giữa chi phí suy luận đồng thời cao cho các mô hình nhỏ và mô hình lớn là theo cấp số nhân.

Lấy các ứng dụng C-end lớn làm ví dụ, khi sử dụng mô hình kích thước lớn, độ trễ suy luận của nó cao hơn nhiều so với mô hình nhỏ. Mô hình nhỏ thậm chí có thể giảm độ trễ xuống còn vài micro giây, trong khi mô hình lớn luôn có độ trễ khi sử dụng, điều này ảnh hưởng trực tiếp đến trải nghiệm của người dùng.

Đối với một số trường hợp sử dụng quy mô lớn nhưng tương đối cụ thể, các khả năng chung thực sự không cần thiết và sự khác biệt về hiệu suất giữa các mô hình quy mô lớn và quy mô nhỏ là không đáng kể, do đó, chi phí bổ sung do mô hình quy mô lớn mang lại là không cần thiết đối với doanh nghiệp.

Cả ba khía cạnh trên đều được Luật Quy mô bao hàm, mang lại đủ không gian sống cho các mô hình kích thước nhỏ. Tất nhiên, nguyên tắc này cũng áp dụng cho các doanh nhân ứng dụng AI của Trung Quốc. May mắn thay, hệ sinh thái mã mã nguồn mở mô hình của Trung Quốc đã ngày càng hoàn thiện và đã có những mô hình quy mô nhỏ đủ mạnh. Doanh nhân chỉ cần thực hiện đào tạo sau đào tạo dựa trên nhu cầu của bản thân để có được mô hình phù hợp.

Bài viết này xuất phát từ tài khoản công khai WeChat "Alpha Commune" (ID: alphastartups) , tác giả là: Discovering Extraordinary Entrepreneurs và được 36Kr cho phép xuất bản.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

All-in station

Kẻ cầm đầu đường dây lừa đảo Crypto trị giá khoảng 74 triệu USD bị tuyên án 20 năm tù

Coin68

MegaETH ra mắt mainnet, tham vọng đạt 50.000 TPS và block time 10 mili-giây

MEGA

The Crypto Basics

Nhà đầu tư Dubai bán hết toàn bộ XRP để mua Shiba Inu.

XRP

0.29%