Nuôi tôm hùm bằng công nghệ GPT-5.4 quá tốn kém? OpenAI đã vào cuộc và giảm chi phí xuống còn 90%.

avatar
36kr
03-19
Bài viết này được dịch máy
Xem bản gốc

OpenClaw gần đây trở nên vô cùng phổ biến ở Trung Quốc. Các nhà cung cấp lớn đều tuyên bố mô hình của họ hỗ trợ Crayfish, nhưng dường như không ai khuyên dùng ChatGPT.

Thực tế, OpenAI vừa mua lại OpenClaw.

Lý do rất đơn giản: nó đắt tiền.

Hãy để AI giúp bạn hoàn thành một nhiệm vụ hơi phức tạp, chẳng hạn như tự động hóa quá trình xử lý hàng loạt email khách hàng. Ẩn sau đó, mô hình có thể được gọi hàng chục hoặc thậm chí hàng trăm lần: hiểu ý định, truy xuất thông tin, tạo bản nháp, hiệu đính và chỉnh sửa, gửi email từng cái một... Nếu mỗi bước đều gọi phiên bản đầy đủ của GPT-5.4, chi phí thức ăn (token) cho một vòng hoạt động sẽ đắt hơn cả chính những con tôm.

Đặc biệt với sự xuất hiện của các framework tác nhân như OpenClaw, phương thức hoạt động của AI đã trải qua một sự thay đổi cơ bản: Trước đây, khi chúng ta hỏi AI một câu hỏi, nó sẽ nhìn chằm chằm vào câu hỏi trong một thời gian dài rồi mới đưa ra một chuỗi văn bản dài; giờ đây, đối diện một nhiệm vụ phức tạp, AI cần phải chia nhỏ nó thành các bước nhỏ và tiến hành từng bước một. Mỗi bước đều gọi đến một mô hình lớn hàng đầu, điều này không chỉ dẫn đến độ trễ gây khó chịu mà còn chi phí cực kỳ cao.

Trong bối cảnh đó, OpenAI chính thức phát hành hai mô hình nhỏ, GPT-5.4 mini và nano, tuyên bố chúng là "những mô hình nhỏ mạnh mẽ nhất của công ty cho đến nay".

Tuy nhỏ gọn, hai thiết bị này lại rất đầy đủ chức năng. Đừng đánh giá thấp chúng. Chúng không chỉ kế thừa những ưu điểm và khả năng của nhân GPT-5.4 mà còn nhanh hơn, tiết kiệm tài nguyên hơn và phù hợp với các nhiệm vụ AI quy mô lớn, tần suất cao.

OpenAI dường như cảm thấy rằng phiên bản mini vẫn chưa đủ nhỏ, vì vậy họ đã tạo ra phiên bản nano thậm chí còn nhẹ hơn.

nano là phiên bản nhẹ nhất và nhanh nhất của GPT-5.4, được thiết kế cho nhiệm vụ đòi hỏi tốc độ và chi phí cực cao.

Thực tế là việc sử dụng một mô hình duy nhất để xử lý tất cả các nhiệm vụ là quá thiếu hiệu quả và thường dẫn đến việc dùng búa tạ để đập vỡ một hạt đậu. Tốt hơn là nên điều chỉnh sang một giải pháp trong đó một mô hình lớn xác định hướng đi nhiệm vụ, và một mô hình nhỏ thực hiện việc xử lý quy mô lớn và nhanh chóng.

Chính Codex của OpenAI cũng làm được điều đó.

Mô hình chính chịu trách nhiệm hiểu ý định nhiệm vụ, phân tích các bước và sau đó lên lịch cho các tác nhân con ở cấp độ mini/nano để thực hiện các sửa đổi mã cụ thể, chạy thử nghiệm và xác minh kết quả. Mỗi nhiệm vụ con tiêu tốn chi phí rất thấp.

Mô hình lớn giống như một tổng tư lệnh ngồi ở trung tâm quân đội, vạch ra chiến lược và chỉ đạo mọi nguồn lực. Các mô hình nhỏ giống như vô số đơn vị kỵ binh nhẹ tinh nhuệ, nhanh nhẹn, thiện chiến và được triển khai với số lượng lớn ra tiền tuyến, chuyên thực hiện nhiệm vụ cụ thể.

Vì sao OpenAI lại làm vậy?

Các mẫu mini và nano thực sự có giá "mini" và "nano". Để hiểu tại sao OpenAI lại đặt cược vào thiết kế gọn nhẹ, trước tiên hãy xem xét hai mẫu này rẻ đến mức nào.

Cả phiên bản mini và nano đều hỗ trợ cửa sổ ngữ cảnh 400.000 token. Về chi phí đầu vào, phiên bản GPT-5.4 cao cấp có giá 2,5 đô la Mỹ/triệu token, phiên bản mini là 0,75 đô la Mỹ/triệu token, và phiên bản nano thậm chí còn ấn tượng hơn với chỉ 0,2 đô la Mỹ/triệu token, khiến chi phí đầu vào chỉ bằng 8% so với mô hình GPT-5.4 cao cấp.

Về giá thành sản phẩm, GPT-5.4 có giá 15 đô la cho mỗi triệu token, phiên bản mini có giá khoảng 1/3 (4,50 đô la), và phiên bản nano có giá khoảng 1/12 (1,25 đô la).

Nói cách khác, hóa đơn của người dùng OpenAI đã được giảm xuống gần như bằng không.

Giá cả chỉ là yếu tố bề ngoài; điều thực sự thúc đẩy OpenAI làm điều này là sự thay đổi cơ bản trong xu hướng sử dụng trên toàn ngành.

Các mô hình nhỏ gọn, trọng lượng nhẹ có đặc điểm là chi phí gọi thấp và tốc độ phản hồi nhanh. Có nhiều bằng chứng cho thấy các mô hình nhỏ đã trở thành lựa chọn hiệu quả về chi phí và tiềm năng tăng trưởng nhất cho việc triển khai AI.

Trong top 10 LLM phổ biến nhất của OpenRouter tháng này, các mô hình nhẹ chiếm sáu vị trí. Số lượng tham số của chúng thường nằm trong khoảng từ hàng tỷ đến hàng chục tỷ, trái ngược hoàn toàn với các mô hình hàng đầu như Claude Opus, vốn có hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số.

Hai vị trí đầu tiên trong danh sách thuộc về các mẫu điện thoại nhỏ gọn. MiniMax M2.5 đứng đầu với khối lượng cuộc gọi đạt 8,29 nghìn tỷ token, dẫn đầu toàn danh sách với khoảng cách khá lớn, tăng 476% so với tháng trước; Google Gemini 3 Flash Preview đứng thứ hai với khối lượng cuộc gọi đạt 4,24 nghìn tỷ token, vượt xa hầu hết các mẫu điện thoại cao cấp cỡ lớn thông thường.

Số liệu thống kê về lượt tải xuống mô hình của Hugging Face Hub cũng xác nhận xu hướng này: 92,48% lượt tải xuống đến từ các mô hình có ít hơn 1 tỷ tham số, 86,33% từ các mô hình có ít hơn 500 triệu tham số và 69,83% từ các mô hình có ít hơn 200 triệu tham số.

Sản xuất quy mô lớn cũng đã bước vào kỷ nguyên lợi nhuận thấp và doanh số bán hàng cao.

Các mô hình có hơn 1 tỷ tham số, ngay cả khi bao gồm một số mô hình mã nguồn mở rất phổ biến, chỉ chiếm tỷ lệ 7,52% tổng số lượt tải xuống, chưa bằng một phần mười so với các mô hình gọn nhẹ. Điều này cho thấy mức độ quan tâm cao dành cho các mô hình lớn đã không được chuyển hóa thành việc triển khai và áp dụng thực tế.

Từ góc độ kinh doanh của chính OpenAI, việc tạo ra các mô hình nhỏ là một nhiệm vụ thiết yếu.

Vào cuối tháng Hai năm nay, OpenAI thông báo rằng ChatGPT đã vượt qua 900 triệu người dùng hoạt động hàng tuần trên toàn cầu, với khoảng 50 triệu người dùng trả phí. Tỷ lệ chuyển đổi sang trả phí chỉ khoảng 5%, có nghĩa là phần lớn người dùng vẫn sử dụng phiên bản miễn phí. Điều này thể hiện tiềm năng tăng trưởng cốt lõi cho việc thương mại hóa trong tương lai.

Đa số người dùng trả phí ở phân khúc C chủ yếu sử dụng dịch vụ cho các nhu cầu tần suất cao, nhẹ nhàng như các cuộc trò chuyện hàng ngày, viết nội dung, tìm kiếm thông tin và viết mã đơn giản.

Những kịch bản này không yêu cầu độ phức tạp cực cao của khả năng suy luận của các mô hình lớn hàng đầu như GPT-5.4. Các mô hình nhỏ gọn với dung lượng dưới 10 tỷ là đủ để đáp ứng hầu hết các nhu cầu, đồng thời cung cấp khả năng phản hồi ở mức mili giây và trải nghiệm người dùng không cần xếp hàng, hoàn toàn phù hợp với các yêu cầu cốt lõi của đại đa số người dùng.

Sau khi đã nêu ra rất nhiều câu hỏi "tại sao", hãy xem hai mô hình này thực sự mang lại kết quả như thế nào — xét cho cùng, nếu thức ăn trở nên rẻ hơn nhưng kích thước tôm cũng bị thu nhỏ lại, thì đó không được gọi là giảm chi phí và cải thiện hiệu quả, mà chỉ là cắt giảm chi phí một cách thiếu cẩn trọng.

Các mẫu mini và nano có những tính năng gì?

Ưu điểm của mini và nano chỉ đơn giản là chúng nhỏ và rẻ?

Không Không Không

Theo sê-ri các bài kiểm tra hiệu năng trên trang web của OpenAI, hiệu suất của chúng khá xuất sắc.

Trong SWE-bench Pro, bài kiểm tra lập trình viên AI uy tín nhất trong ngành, GPT-5.4 mini đạt độ chính xác 54,4%, một con số cực kỳ ấn tượng và gần bằng độ chính xác 57,7% của phiên bản GPT-5.4 đầy đủ chức năng.

Với độ chính xác 52,4% và chi phí cực thấp, GPT-5.4 nano là lựa chọn lý tưởng cho việc rà soát mã nhanh và làm tác nhân phụ trợ.

Hai biểu đồ sau đây cung cấp sự hiểu biết trực quan hơn. Trục hoành biểu thị thời gian phản hồi và chi phí của mô hình, trong khi trục tung biểu thị độ chính xác của mô hình trong nhiệm vụ.

Mặc dù GPT-5.4 luôn đứng đầu về độ chính xác, nhưng đồ thị của nó trải dài quá xa trên trục ngang, điều này có nghĩa là nó không chỉ mất nhiều thời gian hơn để xử lý dữ liệu mà còn tốn kém hơn. Ngược lại, các đường biểu diễn cho các mô hình nano và mini thường nằm ở phía bên trái của đồ thị, cho thấy hiệu quả chi phí cực kỳ cao của chúng.

Họ chỉ hy sinh một chút giới hạn logic tối ưu để đổi lấy tốc độ phản hồi cực nhanh và chi phí cực thấp.

Đáp lại, nhiều cư dân mạng đã nói đùa: "Cuối cùng thì giá thức ăn cho tôm càng cũng đã giảm rồi."

Thực tế, các mô hình mini và nano có thể trở thành lựa chọn API chủ đạo cho nuôi tôm trong tương lai.

Trong bài kiểm tra OSWorld-Verified (kiểm tra hoạt động hoàn cảnh máy tính thực tế), GPT-5.4 mini đạt tỷ lệ chính xác 72,1%, gần bằng tỷ lệ chính xác 75% của phiên bản cao cấp đầy đủ tính năng.

Mục đích chính của bài kiểm tra này là cho phép trí tuệ nhân tạo (AI) sử dụng máy tính thật như con người, bằng cách nhìn vào màn hình, di chuyển chuột và gõ trên bàn phím, bao gồm cả việc sử dụng các phần mềm như Chrome, Office và VS Code.

Đây là chỉ báo mà OpenClaw và các nhà môi giới khác đánh giá cao nhất.

Trước đây, khi trí tuệ nhân tạo (AI) điều khiển máy tính, nó thường thực hiện các thao tác nhấp chuột ngẫu nhiên hoặc phản ứng chậm. Điểm số cao trong phiên bản thu nhỏ này có nghĩa là nó có độ chính xác cực cao trong việc nhận diện các nút bấm, thanh trượt và ô nhập liệu, giúp nó tự động hóa nhiệm vụ hiệu quả hơn.

Tuy nhiên, các mô hình nhỏ không phù hợp với mọi trường hợp.

Mẫu nano chỉ đạt 39,0% trên OSWorld-Verified, thậm chí còn thấp hơn cả mức 42,0% của thế hệ trước GPT-5 mini.

Điều này có nghĩa là nano vẫn còn hạn chế trong nhiệm vụ phức tạp đòi hỏi sự thao tác chính xác trên giao diện máy tính.

Tương tự, đối với nhiệm vụ cực kỳ phức tạp đòi hỏi khả năng suy luận độ sâu và chuỗi logic dài, phiên bản hàng đầu của GPT-5.4 vẫn là lựa chọn không thể thay thế.

Giá trị của một mô hình nhỏ không nằm ở việc thay thế một mô hình lớn, mà nằm ở việc sử dụng nó kết hợp với một mô hình lớn — đặt đúng mô hình vào đúng vị trí mới là bản chất thực sự của kiến ​​trúc tác nhân con.

Đây chính xác là ý nghĩa sâu xa hơn đằng sau việc ra mắt nano và mini. Chúng không ra đời để cạnh tranh với phiên bản chủ lực, mà để giúp phiên bản chủ lực san sẻ gánh nặng "dùng súng đại bác để diệt muỗi".

Khi mô hình lớn không còn cần phải tự mình xử lý mọi bước nhỏ nhặt nữa, hiệu quả và cơ cấu chi phí của toàn hệ thống sẽ trải qua một sự thay đổi về chất lượng.

Mục đích của OpenAI không chỉ đơn thuần là một cuộc chiến giá cả. Suy nghĩ sâu xa của OpenAI là: "Tôi có thể kiếm được ít hơn từ bạn trên mỗi token, nhưng tôi muốn bạn sử dụng các mô hình nhỏ của tôi nhiều hơn và tăng tổng thu nhập."

Đây là một ví dụ điển hình về tỷ suất lợi nhuận thấp nhưng doanh số bán hàng cao.

Trước đây, "giá rẻ" là hệ thống bảo vệ các mô hình sản xuất trong nước, nhưng hệ thống bảo vệ này đang bị xói mòn. Đối với các nhà phát triển thông thường và người dùng doanh nghiệp, AI có thể sớm trở thành một cơ sở hạ tầng mới, giá cả phải chăng và dễ dàng tiếp cận trong nhiều ngành công nghiệp khác nhau.

Với chi phí thức ăn cho tôm càng giảm, rào cản gia nhập ngành nuôi tôm càng đang dần hạ thấp. Câu hỏi đặt ra tiếp theo là: ai có thể nuôi được những con tôm càng béo nhất?

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Alphabet AI" , tác giả: Liu Yijun, và được xuất bản với sự cho phép của 36Kr.

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận