Các nhà nghiên cứu cho biết ngay cả phiên bản tồi tệ nhất của Claude AI cũng tốt hơn GPT 3.5

10-06

Bài viết này được dịch máy

Xem bản gốc

Ngành công nghiệp AI đang chứng kiến sự cạnh tranh gay gắt giữa hai mô hình ChatGPT và Claude AI đáng chú ý. Tổ chức Hệ thống Mô hình Lớn (LMSO), chịu trách nhiệm tạo ra Chatbot Arena và Vicuna Model nổi tiếng, vừa cập nhật Bảng xếp hạng Chatbot Arena của họ, phản ánh cách mỗi chatbot AI so sánh với các đối thủ cạnh tranh. Hóa ra Anthropic đang mang lại lợi nhuận cho OpenAI, ngay cả khi các mô hình của nó vẫn được sử dụng miễn phí.

GPT-4, cường quốc đứng sau ChatGPT Plus và Bing AI, đứng đầu với số điểm cao nhất, đặt ra tiêu chuẩn vàng cho Mô hình ngôn ngữ lớn (LLM). Nhưng khi chúng ta di chuyển xuống bảng xếp hạng, một câu chuyện bất ngờ xảy ra. Các mẫu Claude của Anthropic — Claude 1, Claude 2 và Claude Instant — đều hoạt động tốt hơn GPT-3.5, công cụ hỗ trợ phiên bản miễn phí của ChatGPT. Điều này ngụ ý rằng mọi Mô hình ngôn ngữ lớn do Anthropic phát triển đều có thể vượt trội hơn phiên bản ChatGPT miễn phí.

Hệ thống xếp hạng tỉ mỉ của LMSO đã cung cấp cái nhìn sâu sắc về số liệu hiệu suất của các mô hình này. Theo bảng xếp hạng, GPT-4 giữ Xếp hạng Arena Elo là 1181, dẫn đầu đáng kể trên bảng xếp hạng, trong khi các mẫu Claude theo sát với xếp hạng từ 1119 đến 1155. Mặt khác, GPT-3.5 lại tụt lại với xếp hạng 1115 .

Để xếp hạng các mô hình, LMSO bắt chúng phải “ chiến đấu ” trong các trận đấu có lời nhắc tương tự. Mô hình nào có câu trả lời đúng nhất sẽ thắng và mô hình còn lại sẽ thua. Người dùng quyết định ai thắng dựa trên sở thích của riêng họ, nhưng họ không bao giờ biết được mẫu nào đang cạnh tranh.

Như Decrypt đã báo cáo trước đây, sự khác biệt về khả năng xử lý Token giữa ChatGPT Plus và Claude Pro, mặc dù không phải là một yếu tố trong bảng xếp hạng LMSO, nhưng cũng là một lợi thế lớn mà mô hình Claude có được so với GPT.

“Claude Pro, dựa trên Claude 2 LLM, có thể xử lý tới 100 nghìn mã thông báo, trong khi ChatGPT Plus, được hỗ trợ bởi GPT-4 LLM, xử lý 8.192 mã thông báo,” chúng tôi đã nhớ lại. Sự khác biệt về khả năng xử lý Token này nhấn mạnh lợi thế của mô hình Claude trong việc quản lý đầu vào theo ngữ cảnh mở rộng, điều này rất quan trọng để mang lại trải nghiệm người dùng đa sắc thái và phong phú.

Hơn nữa, khi xử lý các lời nhắc dài, Claude 2 đã thể hiện sự vượt trội so với GPT, xử lý các lời nhắc có cường độ lớn hơn một cách hiệu quả hơn. Tuy nhiên, khi các lời nhắc có thể so sánh được, Claude 1 và Claude Instant mang lại kết quả tương tự hoặc tốt hơn một chút so với GPT-3.5, cho thấy tính chất cạnh tranh của các mẫu này. Với khả năng ngữ cảnh của Claude, một câu trả lời ban đầu kém có thể được cải thiện đáng kể với lời nhắc tinh tế hơn, lớn hơn và phong phú hơn.

Các mô hình nguồn mở không hề bị bỏ xa trong cuộc đua này.

WizardLM, một mô hình được đào tạo trên LlaMA-2 của Meta với 70 tỷ tham số, nổi bật là LLM nguồn mở tốt nhất. Theo sau là Vicuna 33B và LlaMA-2 gốc do Meta phát hành.

Các mô hình nguồn mở đóng vai trò quan trọng trong việc phát triển không gian AI vì nhiều lý do khác nhau. Chúng có thể được chạy cục bộ, mang lại cho người dùng cơ hội hoàn thiện chúng và thu hút cộng đồng vào nỗ lực chung để hoàn thiện mô hình. Chúng cũng rẻ hơn khi chạy do có giấy phép, đó là lý do tại sao không gian này có hàng tá LLM nguồn mở và chỉ một số mô hình độc quyền.

Nhưng trò chơi của chatbot AI không chỉ xoay quanh những con số. Đó là về ý nghĩa trong thế giới thực.

Khi chatbot trở thành một phần không thể thiếu trong nhiều lĩnh vực khác nhau, từ dịch vụ khách hàng đến trợ lý cá nhân, tính hiệu quả, khả năng thích ứng và độ chính xác của chúng trở nên tối quan trọng. Với các mô hình Claude được xếp hạng cao hơn GPT-3.5, các doanh nghiệp và người dùng cá nhân có thể thấy mình đang ở ngã ba đường, đánh giá mô hình nào phù hợp nhất với nhu cầu của họ. Decrypt đã chuẩn bị hai hướng dẫn để giúp bạn quyết định mô hình nào phù hợp với mình nhất.

Đối với những người chưa quen, đây có thể chỉ là một bản cập nhật bảng xếp hạng khác. Nhưng đối với những người theo dõi chặt chẽ ngành công nghiệp AI, đó là bằng chứng cho thấy mức độ cạnh tranh khốc liệt và tình thế có thể thay đổi nhanh chóng như thế nào. Và đối với phần còn lại của chúng ta, những người ngồi giữa hai phe đó, đó là một lời nhắc nhở rằng trong thế giới AI, mô hình phổ biến nhất ngày nay có thể rơi vào tình trạng hiệu quả nhất.

Khu vực:

Lưu Trữ

Token Sàn Phi Tập Trung (DEX)

AMM

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

Decrypt

Những chú chim cánh cụt mũm mĩm đến thành phố New York với sự kiện pop-up nhân dịp Ngày Valentine

VALENTINE

Decrypt

Không khí tại "Davos dành cho dân chơi" khi Bitcoin và Ethereum lao dốc.

SOL

1.92%

BlockTempo

Yi Lihua đã thanh lý toàn bộ số ETH nắm giữ của mình! Theo báo cáo, Trend Research đã bán 650.000 Ethereum trong một tuần, chịu lỗ 730 triệu đô la trước khi rút khỏi thị trường.

ETH

0.12%