Byte nhấn phím tăng tốc AI Agent

Bài viết này được dịch máy
Xem bản gốc
Sau những tác động từ DeepSeek, Manus vào đầu năm 2025, các công ty lớn đang xác định lại chiến lược tiếp theo của mình.

Tác giả: Vãn Trần

Văn phong tuyệt vời của DeepSeek-R1, phong cách vẽ Ghibli của GPT-4o, suy luận vị trí địa lý từ hình ảnh của OpenAI o3...

Đây là những sản phẩm AI nổi bật trong hai tháng qua, bạn có thể thấy rõ: Học tăng cường cuối cùng đã có thể được khái quát hóa, các mô hình đa phương thức cũng ngày càng khả dụng. Điều này cũng có nghĩa là năm 2025 thực sự đã bước vào giai đoạn triển khai và tăng tốc ứng dụng Agent.

(Phần còn lại được dịch tương tự, giữ nguyên các thẻ HTML và nội dung bên trong)

Hiện tại, việc so sánh là khả năng xác định vấn đề. Nói cách khác, AI sẽ giải quyết những vấn đề gì trong cuộc sống thực tế?

Năm 2025, câu trả lời là Đại lý năng suất. Hiện tại, các ứng dụng AI đang nhanh chóng bước vào thời đại Agentic AI, AI dần có thể hoàn thành các nhiệm vụ hoàn chỉnh có tính chuyên nghiệp cao và mất nhiều thời gian. Trong trường hợp này, Volcano Engine cũng đã xây dựng một loạt cơ sở hạ tầng để các doanh nghiệp "xác định đại lý chung của riêng mình".

Quan trọng nhất là mô hình, có thể lập kế hoạch độc lập, suy ngẫm, ra quyết định và thực hiện từ đầu đến cuối một cách độc lập, hướng tới các khâu sản xuất cốt lõi. Đồng thời, cũng cần có khả năng suy luận đa phương thức, để có thể hoàn thành nhiệm vụ thông qua tai, miệng và mắt trong thế giới thực.

Ngoài mô hình, ngăn xếp kỹ thuật Infra cũng cần không ngừng tiến hóa. Chẳng hạn, khi kiến trúc MoE thể hiện những ưu thế hiệu quả hơn, dần trở thành kiến trúc chính của mô hình, tiếp theo đó, việc lập lịch và điều chỉnh các mô hình MoE sẽ yêu cầu kiến trúc và công cụ điện toán đám mây phức tạp và linh hoạt hơn.

Hiện tại, trong kịch bản Đại lý chung của doanh nghiệp, Volcano Engine đã giới thiệu kiến trúc và công cụ tốt hơn - giải pháp OS Agent, hỗ trợ các mô hình lớn để vận hành thế giới số và vật lý, chẳng hạn như Agent điều khiển trình duyệt, tìm kiếm trang sản phẩm, thực hiện nhiệm vụ so sánh giá iPhone, thậm chí Agent chỉnh sửa video, thêm nhạc nền trên máy tính từ xa bằng Jianying, v.v.

Hiện tại, giải pháp OS Agent của Volcano Engine bao gồm mô hình Doubao UI-TARS, dịch vụ hàm veFaaS, máy chủ đám mây, điện thoại đám mây, v.v., để thực hiện các thao tác trên mã, trình duyệt, máy tính, điện thoại và các Agent khác. Trong đó, mô hình Doubao UI-TARS tích hợp hiểu biết trực quan màn hình, suy luận logic, định vị và thao tác các phần tử giao diện, vượt qua những hạn chế của các công cụ tự động hóa truyền thống phụ thuộc vào các quy tắc được đặt trước, cung cấp nền tảng mô hình cơ bản cho tương tác thông minh của Agent gần với thao tác của con người hơn.

Trong kịch bản Agent chung, Volcano Engine thông qua giải pháp OS Agent này cho phép các doanh nghiệp, cá nhân hoặc các lĩnh vực cụ thể xác định và khám phá Agent theo nhu cầu.

Trên các Agent chuyên ngành, Volcano Engine sẽ khám phá dựa trên các lĩnh vực thế mạnh của mình, chẳng hạn như việc trước đây đã giới thiệu "Trợ lý lập trình thông minh Trae" và sản phẩm dữ liệu "Data Agent", sản phẩm sau cùng thông qua việc xây dựng vòng quay dữ liệu, phát huy tối đa năng lực xử lý dữ liệu.

Mặt khác, với sự thâm nhập của Agent, sẽ mang lại lượng lớn hơn nhu cầu suy luận mô hình. Đối mặt với nhu cầu suy luận quy mô lớn, Volcano Engine đã đặc biệt tạo ra bộ công cụ suy luận ServingKit gốc đám mây AI, giúp triển khai mô hình nhanh hơn, chi phí suy luận thấp hơn, tiêu thụ GPU giảm 80% so với các giải pháp truyền thống.

Theo Đàm Đợi, để đáp ứng nhu cầu của kỷ nguyên AI, Volcano Engine sẽ tiếp tục nỗ lực ở ba khía cạnh: liên tục tối ưu hóa mô hình để duy trì tính cạnh tranh; liên tục giảm chi phí, bao gồm phí, độ trễ và tăng thông lượng; làm cho sản phẩm dễ dàng triển khai hơn, chẳng hạn như các công cụ dành cho nhà phát triển như Doubao, HiAgent, và các thành phần gốc đám mây như OS Agent, v.v. Duy trì sản phẩm và công nghệ dẫn đầu, thị phần cũng sẽ dẫn đầu. Trước đây, báo cáo của IDC về "Phân tích cấu trúc thị trường dịch vụ mô hình lớn đám mây công cộng Trung Quốc, 1Q25" cho thấy Volcano Engine chiếm 46,4% thị phần, đứng đầu.

Vào tháng 12 năm ngoái, lượng gọi tokens trung bình hàng ngày của mô hình lớn Doubao là 4 nghìn tỷ. Tính đến cuối tháng 3 năm nay, con số này đã vượt quá 12,7 nghìn tỷ, so với khi mô hình lớn Doubao mới được phát hành, trong thời gian ngắn chưa đầy một năm, đã đạt được mức tăng trưởng nhanh chóng hơn 106 lần. Trong tương lai, với sự trưởng thành của các mô hình suy nghĩ sâu, suy luận hình ảnh và việc tối ưu hóa cơ sở hạ tầng đám mây AI, Agent sẽ còn thúc đẩy lượng gọi tokens lớn hơn nữa.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận