Cựu CTO của OpenAI ra mắt với mô hình khởi nghiệp, bước đi đầu tiên của ông nhắm vào hộp trò chuyện ChatGPT.

Bài viết này được dịch máy
Xem bản gốc

Trong bộ phim khoa học viễn tưởng Her năm 2013, hệ điều hành Samantha đã mang đến cho khán giả hình dung cụ thể đầu tiên về trí tuệ nhân tạo lý tưởng: nó có thể nói trước khi bạn nói xong, có thể cảm nhận được sự do dự trong giọng điệu của bạn và luôn "hiện diện" chứ không phải thụ động chờ đợi được đánh thức.

Mười ba năm sau, Thinking Machines Lab, do Mira Murati, cựu Giám đốc công nghệ của OpenAI, thành lập, đã công bố bản xem trước nghiên cứu. Mô hình tương tác mà họ xây dựng rất nhất quán với logic của Samantha trong mục tiêu nghiên cứu cơ bản của nó.

Bài đăng trên blog này, có tiêu đề "Mô hình tương tác: Một giải pháp mở rộng cho sự hợp tác giữa con người và máy tính," liên tục nhấn mạnh một từ xuyên suốt: "sự hiện diện."

Liên kết blog: https://thinkingmachines.ai/blog/interaction-models/

Điều thú vị là, vào năm 2024, Mira Murati đã chủ trì buổi ra mắt chế độ nhận dạng giọng nói nâng cao của GPT-4o tại OpenAI, giúp tương tác giữa người và máy tính trở nên gần gũi hơn với giao tiếp tự nhiên giữa người với người.

Hai năm sau, cô bắt đầu lại với đội ngũ cũ, nhưng cuối cùng lại lặp lại sai lầm cũ.

Phần bình luận tràn ngập những lời chỉ trích ngày càng gay gắt.

Con người đã bị loại bỏ khỏi các cuộc trò chuyện nhóm cộng tác với AI.

Bài báo bắt đầu bằng việc chỉ ra rằng, dựa trên báo cáo nghiên cứu năm 2025 của METR, các công ty AI chính thống thường coi "các mô hình tự động hoàn thành nhiệm vụ dài" là chỉ báo năng lực quan trọng nhất, dẫn đến các giao diện tương tác hiện tại hầu như không dành chỗ cho sự tham gia liên tục của con người.

Tuy nhiên, trên thực tế, các yêu cầu hiếm khi được xác định hoàn hảo ngay từ đầu. Sản phẩm đầu ra chất lượng cao thường đòi hỏi sự can thiệp liên tục của con người và các điều chỉnh lặp đi lặp lại, điều mà cơ chế "theo lượt" hiện tại còn thiếu.

Nghiên cứu năm 1991 của các nhà ngôn ngữ học Clark và Brennan cho thấy rằng giao tiếp hiệu quả dựa trên sự cùng tồn tại, đồng thời và song song. Cả hai bên cần ở trong cùng một bối cảnh, tiếp nhận và truyền đạt thông tin một cách đồng bộ; hơn nữa, như nghiên cứu năm 1982 của Walter Ong về "bản chất thoáng qua của ngôn ngữ nói" đã chứng minh, bản chất của đối thoại nằm ở sự tham gia thường xuyên. Kết hợp với lý thuyết năm 1945 của Hayek, kiến ​​thức thực sự có giá trị nằm ở kiểu truyền đạt tức thời và chi tiết này.

Các mô hình hiện tại hoạt động bằng cách cho phép người dùng nhập dữ liệu trong khi AI chờ đợi; khi AI đưa ra kết quả, nó hoàn toàn không biết phản ứng tức thì của người dùng. Thinking Machines ví điều này như: đối diện những bất đồng cấp bách mà không có giao tiếp trực tiếp, thay vào đó chỉ dựa vào trao đổi email qua lại.

Thị trường nhận dạng giọng nói thời gian thực hiện nay có hai phương pháp hạn chế: hầu hết các hệ thống thương mại chính thống dựa vào "thời gian thực giả" bằng cách ghép nối các thành phần như phát hiện hoạt động giọng nói (VAD) bên ngoài mô hình.

Những hạn chế của phương pháp quản lý thành phần plug-in này rất rõ ràng: mô hình không thể chủ động ngắt lời cuộc hội thoại, không thể phản ứng theo thời gian thực với các thay đổi trực quan như lỗi màn hình, và thậm chí còn kém khả năng hơn trong việc xử lý nhiệm vụ đồng thời tần suất cao như "phiên dịch đồng thời trong khi nghe". Mặt khác, mặc dù các hệ thống song công toàn phần gốc không yêu cầu VAD, chẳng hạn như Moshi và PersonaPlex, đã xuất hiện trên thị trường, nhưng chúng chủ yếu là các mô hình quy mô nhỏ hơn đã phải thỏa hiệp về mức độ thông minh tổng thể để đạt được độ trễ thấp.

Thinking Machines đồng tình với quan điểm của học giả về học tăng cường Richard Sutton rằng các hệ thống dựa trên các thành phần được thiết kế thủ công cuối cùng sẽ bị vượt qua bởi khả năng học tập tổng quát. Khả năng tương tác phải là một phần không thể thiếu của mô hình.

Để đạt được mục tiêu này, họ tham khảo các nghiên cứu trong ngành về tương tác thoại song công toàn phần và các tác nhân bất đồng bộ (như Seeduplex, Omni, MoshiRAG, v.v.) và huấn luyện một hệ thống hỗ trợ tương tác thời gian thực từ đầu. Hệ thống này bao gồm một "mô hình tương tác" nhận biết thời gian (ở phía trước) và một "mô hình nền" chạy bất đồng bộ (chịu trách nhiệm suy luận sâu) hoạt động cùng nhau.

Phân tích/cơ chế lần lần mô đồng bộ thời gian: Mô hình xử lý đầu vào và đầu ra luân phiên theo đơn vị 200 mili giây. Sự im lặng và gián đoạn của người dùng được giữ lại như thông tin thực.

Bằng cách phá vỡ ranh giới của lần lượt thoại do con người định nghĩa, mô hình có thể ngầm theo dõi xem người dùng đang suy nghĩ, nhường lời, tự sửa lỗi hay đang mời phản hồi, mà không cần đến một mô-đun quản lý hội thoại riêng biệt. Nó không chỉ có thể nói đồng bộ và ngắt lời giữa cuộc trò chuyện, mà còn có thể đồng thời truy cập các công cụ, tìm kiếm trên web hoặc tạo giao diện người dùng trong khi đang nghe và quan sát.

Về xử lý đa phương thức, họ đã loại bỏ nhu cầu sử dụng bộ mã hóa riêng biệt, kích thước lớn; âm thanh và video được xử lý nhẹ nhàng và huấn luyện trực tiếp cùng với phần thân chính của Transformer. Đồng thời, để đáp ứng yêu cầu xử lý tần số cao, đội ngũ đã triển khai cơ chế "phiên truyền phát" và tối ưu hóa tỷ lệ băm và giao tiếp bên dưới, tránh việc phân bổ lại bộ nhớ lặp đi lặp lại và đảm bảo hoạt động ổn định với độ trễ thấp.

Khi đối mặt với nhiệm vụ phức tạp, giao diện người dùng (front-end) sẽ gửi toàn bộ ngữ cảnh đến máy chủ (back-end), sau đó máy chủ sẽ truyền tải kết quả trở lại. Giao diện người dùng sau đó tích hợp liền mạch vào cuộc hội thoại, đảm bảo phản hồi theo thời gian thực đồng thời hỗ trợ suy luận độ sâu. Để giải quyết các thách thức bảo mật mới nổi, mô hình cũng đã trải qua quá trình huấn luyện thực tế mô phỏng việc từ chối hội thoại và kiểm tra độ bền vững trước các cuộc tấn công bẻ khóa thiết bị.

Một bảng điểm thu hút sự chú ý của các người mẫu nổi tiếng.

Trong quá trình thử nghiệm, mô hình có tên TML-Interaction-Small (tham số hoạt động 12B) đã thể hiện rất tốt.

Trong bài kiểm tra FD-bench v1.5, đánh giá sự gián đoạn và nhiễu bối cảnh, TML đạt 77,8 điểm, vượt xa GPT Realtime-2.0 (46,8 điểm) và Gemini(54,3 điểm), với độ trễ chuyển lần chỉ 0,40 giây. Trong FD-bench v3, yêu cầu suy luận độ sâu, chất lượng phản hồi/Pass@1 (82,8/68,0) của nó cũng liên tục vượt trội so trì hoãn cao của các sản phẩm cạnh tranh.

Trong các bài kiểm tra toàn diện khác, TML cũng thể hiện sự cân bằng xuất sắc: trả lời câu hỏi âm thanh/video QIVD (54,0 điểm), BigBench Audio (75,7/96,5 điểm) và tuân thủ hướng dẫn IFEval (82,1/89,7 điểm), đồng thời duy trì tỷ lệ từ chối an toàn 99,0% trong Harmbench. Mặc dù hơi chậm hơn so với Qwen 3.5 Omni hoặc phiên bản trì hoãn cao GPT-2.0 trong một số bài kiểm tra thuần túy dựa trên trí thông minh, nhưng đây là mô hình duy nhất đạt được sự xuất sắc cả về tốc độ phản hồi và mức độ thông minh.

Để đo lường chính xác hơn khả năng tương tác tự nhiên, Thinking Machines đã xây dựng một số tiêu chuẩn đánh giá.

So với các nguyên mẫu đầu ra văn bản hiện có trong giới học thuật như StreamBridge và AURA, TML đạt được khả năng đầu ra giọng nói đồng thời thực sự. Trong các bài kiểm tra riêng lẻ, bao gồm TimeSpeak (64,7 điểm cho khả năng nói chủ động), CueSpeak (81,7 điểm cho khả năng sửa lỗi đồng thời), RepCount-A (35,4 điểm cho khả năng theo dõi hình ảnh liên tục) và ProactiveVideoQA (trả lời câu hỏi bằng cách xem video), TML đều đạt được kết quả tốt, trong khi các mô hình chính thống được so sánh hầu hết đều đạt điểm 0 hoặc không ghi điểm trong các trường hợp này.

Tất nhiên, kiến ​​trúc này cũng có những hạn chế: việc tích lũy ngữ cảnh trong các phiên dài rất khó quản lý, và việc truyền phát âm thanh và video phụ thuộc rất nhiều vào độ ổn định của mạng. Hơn nữa, kiến ​​trúc này vẫn chưa mở rộng lên phiên bản với số lượng tham số lớn hơn và dự kiến ​​sẽ được phát hành vào cuối năm nay.

Việc trò chuyện với trí tuệ nhân tạo ngày càng giống với việc trò chuyện với con người.

Neal Wu, một nhà nghiên cứu tham gia vào công trình này, đã tóm tắt ý tưởng ban đầu của họ: "Điều gì sẽ xảy ra nếu việc hợp tác với AI không còn chỉ là gõ vào hộp chat, mà giống như trò chuyện trực tiếp với một người khác?" Mô hình hỗ trợ tương tác trực tiếp là nỗ lực ban đầu của họ.

Giám đốc công nghệ của Thinking Machines, Soumith Chintala, chia lộ trình tổng thể thành ba bước: Thứ nhất, tăng cường băng thông thông tin giữa con người và trí tuệ nhân tạo; thứ hai, nâng cao giới hạn trên của trí tuệ con người-AI; và thứ ba, giúp con người tiếp tục đóng vai trò cốt lõi trong các hệ thống tương lai.

Trong khi nhiều hướng nghiên cứu về trí tuệ nhân tạo tập trung vào việc làm cho các mô hình trở nên tự chủ hơn và giảm thiểu sự can thiệp của con người, Thinking Machines đã chọn một con đường khác: làm cho sự can thiệp của con người trở nên mượt mà hơn và biến chính băng thông truyền thông thành một cơ sở hạ tầng.

Trong bài đăng trên Twitter, Weng Li tiếp tục cho biết: "Tôi đã viết 137 trang nhật ký và tạo ra 12 phiên bản. Kết quả cho thấy sự hợp tác giữa người với người là rất quan trọng để cải thiện sự hợp tác giữa con người và trí tuệ nhân tạo." Điều này có thể có nghĩa là để phát triển một mô hình có thể hiểu được nhịp điệu giao tiếp của con người, các nhà nghiên cứu trước tiên cần phải hiểu sâu sắc bản chất của giao tiếp giữa người với người.

Tuy nhiên, trải nghiệm tâm lý do một trí tuệ nhân tạo (AI) luôn hiện diện và có thể tức thời nhận biết tâm lý và trạng thái mang lại khác biệt rất lớn so với AI dựa trên công cụ truyền thống. Nhận thức và sự phụ thuộc của con người vào AI sẽ thay đổi như thế nào khi sự hiện diện của nó trong lần tương tác ngày càng mạnh mẽ?

Bài báo không trả lời những câu hỏi sâu sắc này, mà chỉ để ngỏ hướng đi về "sự đồng bộ và bảo mật thời gian thực". Tuy nhiên, có thể dự đoán rằng khi cốt truyện trong các bộ phim khoa học viễn tưởng thực sự trở thành hiện thực trên máy tính để bàn, và trí tuệ nhân tạo trở thành "sự hiện diện" thường trực trong cuộc sống của chúng ta, điều chúng ta thực sự cần đồng bộ có thể không chỉ là các mô hình, mà còn là vị trí của chính nhân loại trong thế giới mới.

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do APPSO - đơn vị khám phá các sản phẩm của tương lai - chấp bút và được xuất bản với sự cho phép của 36Kr.

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận