ChatGPT o1 phiên bản đầy máu ra mắt nhưng thực tế lại thua Wenxin Kimi trong thử nghiệm thực tế?

12-09

Bài viết này được dịch máy

Xem bản gốc

Vào ngày 5 tháng 12 theo giờ địa phương, OpenAI chính thức ra mắt hai mô hình AI mới là o1 và o1-Pro. Mô hình o1 thực ra đã được mọi người sử dụng trước đây, chỉ là lúc đó nó còn được gọi là o1-preview và chỉ mở một số chức năng, nay phiên bản mới đã bỏ đi cái tên preview và chính thức ra mắt phiên bản đầy đủ. Từ những bài kiểm tra đơn giản, có thể thấy rằng phiên bản đầy đủ của mô hình o1 đã hỗ trợ tải lên ảnh và tệp, trong khi trước đây chỉ có thể nhập văn bản, tức là đã bổ sung khả năng hiểu đa phương thức, tuy nhiên tính năng tìm kiếm trên web vẫn chưa được ra mắt, điều này khiến người dùng cảm thấy tiếc nuối. Về sự cải thiện của phiên bản đầy đủ o1, Giám đốc điều hành của OpenAI, Otterburn, đã sử dụng một biểu đồ cột đơn giản để so sánh: có thể thấy rằng o1 có hiệu suất rõ ràng hơn o1-preview trong lĩnh vực lập trình và suy luận toán học, với mức tăng khoảng 50%, trong khi trong các bài kiểm tra về nghiên cứu khoa học, sự cải thiện của o1 so với o1-preview là có hạn. Xét về mặt giá cả, vì o1 không cần phải trả thêm tiền để sử dụng, nên đối với những người có nhu cầu, đây vẫn là một lựa chọn rất đáng giá. Tuy nhiên, ý đồ chính của OpenAI lại nằm ở o1-Pro hoàn toàn mới. Muốn sử dụng o1-Pro, người dùng phải đăng ký gói 200 USD mới được ưu tiên sử dụng, đây là gói đăng ký dành cho cá nhân đắt nhất trong lĩnh vực trí tuệ nhân tạo hiện nay. Từ biểu đồ so sánh hiệu suất do OpenAI cung cấp, có thể thấy rằng o1-Pro thực sự có một số cải tiến trên cơ sở o1, nhưng mức độ cải thiện không lớn. Đối với người dùng thông thường, mô hình o1 hoàn toàn có thể đáp ứng nhu cầu sử dụng hàng ngày, không cần phải đăng ký gói 200 USD để sử dụng o1-Pro. Khi đã có các mô hình mới, tất nhiên là phải tiến hành kiểm tra. Lần này, Leshi Technology chủ yếu kiểm tra khả năng đa phương thức của phiên bản đầy đủ o1, đồng thời cũng mời hai trợ lý AI trong nước (Kimi và Wenxin Yiyan) tham gia.

Dựa vào câu trả lời của mô hình o1, nó được hoàn thành trong ba phần. Đầu tiên, nó đưa ra cách thức thực hiện, sau đó cung cấp mã minh họa và chú thích, cuối cùng phân tích quá trình viết mã, đồng thời cung cấp cách thức kiểm tra và các phương án thay thế. Điều này tập trung vào những ưu điểm của cả hai trí tuệ nhân tạo, vì vậy đối với người mới bắt đầu, trải nghiệm với mô hình o1 có thể tốt hơn.

Từ góc độ năng suất, mô hình o1 thực sự nổi bật trong lĩnh vực cụ thể, nhưng các mô hình trí tuệ nhân tạo trong nước cũng không tệ, trong đó kimi là AI duy nhất trả lời đúng tất cả các câu hỏi kiểm tra.

Sau khi kiểm tra đến đây, có thể kết thúc, nhưng tôi vẫn muốn xem mô hình o1 sẽ có sự khác biệt như thế nào so với các mô hình thông thường trong lĩnh vực thông thường.

Vì vậy, tôi đã đưa ra một câu hỏi bổ sung, tìm kiếm một bức ảnh bánh ngọt dâu trên mạng và hỏi các AI cách chế biến món tráng miệng trong ảnh.

kimi

Văn Tâm Nhất Ngôn

Cả ba AI đều dễ dàng nhận ra loại tráng miệng và đưa ra công thức tương tự, nhưng câu trả lời của mô hình o1 lại chi tiết đến từng bước thực hiện và lưu ý. Trong khi đó, các AI trong nước chỉ cung cấp hướng dẫn đơn giản. Nếu là người có kinh nghiệm nướng bánh, công thức của các AI trong nước cũng đủ, nhưng đối với người mới bắt đầu, công thức của mô hình o1 sẽ có tỷ lệ thành công cao hơn nhiều.

02 Bước tiếp theo của AI là học cách "suy nghĩ" thực sự

Nhìn chung, mô hình o1 có rõ ràng ưu thế về độ chi tiết trong câu trả lời, trong các tình huống cần xem xét quá trình suy luận hoặc nhận được câu trả lời chi tiết hơn, trải nghiệm sẽ tốt hơn nhiều. Nhưng về độ chính xác của câu trả lời, o1 thực ra cũng không có nhiều ưu thế so với các mô hình AI trong nước, thậm chí còn kém hơn kimi.

Hơn nữa, các AI trong nước cũng có thể thông qua việc đặt thêm câu hỏi để nhận được câu trả lời và quá trình suy luận chi tiết hơn, trong hầu hết các tình huống, mô hình o1 thực sự không có ưu thế rõ ràng, ví dụ như khi tôi sử dụng ChatGPT thường xuyên, trong nhiều trường hợp ChatGPT-4o cũng có thể đáp ứng được nhu cầu, chỉ có một số ít tình huống tôi mới sử dụng mô hình o1.

Với tư cách là người dùng lâu năm của ChatGPT, tôi cho rằng mô hình o1 thực sự phù hợp hơn với các nhà nghiên cứu và nhà phân tích tài chính, họ thường sử dụng nhiều công cụ toán học và thực hiện nhiều lần suy luận trong công việc hàng ngày. Trong trường hợp này, quy trình suy luận nhiều bước sau khi được đào tạo chuyên sâu của mô hình o1 sẽ thể hiện tốt hơn nhiều so với các AI thông thường khi giải quyết những vấn đề này.

Về o1-pro, dựa trên kết quả kiểm tra của các người dùng khác, chất lượng câu trả lời không khác biệt nhiều so với mô hình o1, sự khác biệt chủ yếu là o1-pro có thể sử dụng nhiều tài nguyên tính toán hơn, kiểm tra lại tính chính xác của câu trả lời và cố gắng cung cấp quá trình suy luận chi tiết hơn.

Thực tế, sự phát triển của các mô hình AI lớn đến nay đã bắt đầu có dấu hiệu phân khúc hóa, trước đây nhiều công ty AI đều hy vọng xây dựng một mô hình đa phương thức lớn toàn diện, nhưng lại phát hiện chi phí rất cao và hiệu quả không tốt, các vấn đề như "ảo giác" vẫn khó giải quyết.

Và ChatGPT-o1 đã đưa ra một giải pháp khác, trong trường hợp có đủ tài nguyên tính toán, có thể để AI "suy nghĩ" sâu về vấn đề trước, sau đó dựa trên kết quả suy nghĩ để giải quyết vấn đề. Bạn có thể hiểu rằng o1 trước tiên cố gắng phân tích bản thân vấn đề, sau đó dựa trên kết quả phân tích để giải quyết vấn đề, trong khi các AI thông thường trực tiếp phân tích từ khóa của vấn đề, sau đó dựa trên thuật toán và dữ liệu để kết hợp đưa ra câu trả lời, phương pháp này tuy phản hồi nhanh nhưng độ chính xác khó đảm bảo, đặc biệt là khi đối mặt với các vấn đề phức tạp.

Vì vậy, chúng ta có thể thấy kimi và Văn Tâm Nhất Ngôn cũng đang cố gắng theo các cách khác nhau để giúp AI "suy nghĩ", thay vì chỉ dựa vào thuật toán và dữ liệu để ghép nối câu trả lời. Đặc biệt, kimi đã để lại ấn tượng sâu sắc với tôi khi là AI duy nhất trả lời đúng tất cả các câu hỏi kiểm tra toán học, mà không cần phải trả phí, tỷ lệ giá trị và trải nghiệm đều rất cao.

Thành thật mà nói, nếu không phải để tiện tra cứu tài liệu bằng ngoại ngữ và theo dõi các xu hướng mới nhất của AI, thì gói đăng ký 20 USD của ChatGPT thực sự không có giá trị cao, các lựa chọn miễn phí như kimi và Văn Tâm Nhất Ngôn cung cấp nhiều trợ lý thông minh và công cụ chính thức, có tính ứng dụng rộng hơn nhiều.

Bài viết này đến từ tài khoản WeChat chính thức "Viện Nghiên cứu Giá trị" (ID: jiazhiyanjiusuo), tác giả: TSknight, được 36Kr ủy quyền đăng tải.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan