Databricks có một thủ thuật cho phép các mô hình AI tự cải thiện

avatar
WIRED
03-25
Bài viết này được dịch máy
Xem bản gốc

Databricks, một công ty giúp các doanh nghiệp lớn xây dựng các mô hình trí tuệ nhân tạo tùy chỉnh, đã phát triển một thủ thuật học máy có thể tăng cường hiệu suất của mô hình AI mà không cần dữ liệu có nhãn sạch.

Jonathan Frankle, nhà khoa học AI hàng đầu tại Databricks, đã dành năm qua để trò chuyện với khách hàng về những thách thức chính mà họ phải đối mặt để AI hoạt động đáng tin cậy.

Frankle cho biết vấn đề nằm ở dữ liệu bẩn.

“Mọi người đều có một số dữ liệu và có ý tưởng về những gì họ muốn làm”, Frankle nói. Nhưng việc thiếu dữ liệu sạch khiến việc tinh chỉnh một mô hình để thực hiện một nhiệm vụ cụ thể trở nên khó khăn. “Không ai xuất hiện với dữ liệu tinh chỉnh sạch, đẹp mà bạn có thể đưa vào lời nhắc hoặc [giao diện lập trình ứng dụng]”, cho một mô hình.

Mô hình của Databricks có thể cho phép các công ty triển khai các tác nhân của riêng mình để thực hiện nhiệm vụ mà không bị ảnh hưởng bởi chất lượng dữ liệu.

Kỹ thuật này cung cấp một cái nhìn hiếm hoi về một số thủ thuật chính mà các kỹ sư hiện đang sử dụng để cải thiện khả năng của các mô hình AI tiên tiến, đặc biệt là khi dữ liệu tốt khó có được. Phương pháp này tận dụng các ý tưởng đã giúp tạo ra các mô hình lý luận tiên tiến bằng cách kết hợp học tăng cường, một cách để các mô hình AI cải thiện thông qua thực hành, với dữ liệu đào tạo "tổng hợp" hoặc do AI tạo ra.

Các mô hình mới nhất từ OpenAI , GoogleDeepSeek đều dựa nhiều vào học tăng cường cũng như dữ liệu đào tạo tổng hợp. WIRED tiết lộ rằng Nvidia có kế hoạch mua lại Gretel , một công ty chuyên về dữ liệu tổng hợp. "Tất cả chúng ta đều đang điều hướng không gian này", Frankle nói.

Phương pháp Databricks khai thác thực tế rằng, nếu thử đủ nhiều lần, ngay cả một mô hình yếu cũng có thể đạt điểm cao trong một nhiệm vụ hoặc chuẩn mực nhất định. Các nhà nghiên cứu gọi phương pháp tăng hiệu suất của mô hình này là “tốt nhất trong N”. Databricks đã đào tạo một mô hình để dự đoán kết quả tốt nhất trong N mà người thử nghiệm con người sẽ thích, dựa trên các ví dụ. Mô hình phần thưởng Databricks, hay DBRM, sau đó có thể được sử dụng để cải thiện hiệu suất của các mô hình khác mà không cần dữ liệu được gắn nhãn thêm.

Sau đó, DBRM được sử dụng để chọn ra những kết quả đầu ra tốt nhất từ một mô hình nhất định. Điều này tạo ra dữ liệu đào tạo tổng hợp để tinh chỉnh mô hình hơn nữa sao cho nó tạo ra kết quả đầu ra tốt hơn ngay từ lần đầu tiên. Databricks gọi phương pháp tiếp cận mới của mình là Tối ưu hóa thích ứng thời gian thử nghiệm hoặc TAO. Frankle cho biết: "Phương pháp mà chúng tôi đang nói đến sử dụng một số phương pháp học tăng cường tương đối nhẹ để về cơ bản đưa những lợi ích của phương pháp tốt nhất trong N vào chính mô hình".

Ông nói thêm rằng nghiên cứu do Databricks thực hiện cho thấy phương pháp TAO cải thiện khi được mở rộng thành các mô hình lớn hơn, có khả năng hơn. Học tăng cường và dữ liệu tổng hợp đã được sử dụng rộng rãi nhưng việc kết hợp chúng để cải thiện các mô hình ngôn ngữ là một kỹ thuật tương đối mới và đầy thách thức về mặt kỹ thuật.

Databricks khá cởi mở về cách phát triển AI vì họ muốn cho khách hàng thấy rằng họ có đủ kỹ năng cần thiết để tạo ra các mô hình tùy chỉnh mạnh mẽ cho họ. Trước đây, công ty đã tiết lộ với WIRED cách họ phát triển DBX, một mô hình ngôn ngữ lớn (LLM) mã nguồn mở tiên tiến từ đầu.

Nếu không có dữ liệu được dán nhãn tốt và được quản lý cẩn thận, sẽ rất khó để tinh chỉnh LLM để thực hiện các nhiệm vụ cụ thể hiệu quả hơn, chẳng hạn như phân tích báo cáo tài chính hoặc hồ sơ sức khỏe để tìm ra các mô hình hoặc xác định vấn đề. Nhiều công ty hiện hy vọng sẽ sử dụng LLM để tự động hóa các nhiệm vụ với cái gọi là tác nhân .

Ví dụ, một tác nhân được sử dụng trong tài chính có thể phân tích hiệu suất chính của công ty sau đó tạo báo cáo và tự động gửi báo cáo đó đến các nhà phân tích khác nhau. Một tác nhân được sử dụng trong bảo hiểm y tế có thể giúp hướng dẫn khách hàng đến thông tin về một loại thuốc hoặc tình trạng có liên quan.

Databricks đã thử nghiệm phương pháp TAO trên FinanceBench, một chuẩn mực kiểm tra mức độ các mô hình ngôn ngữ trả lời các câu hỏi tài chính tốt như thế nào. Trên chuẩn mực này, Llama 3.1B, mô hình AI miễn phí nhỏ nhất của Meta, đạt 68,4 phần trăm so với 82,1 phần trăm của các mô hình GPT-4o và o3-mini độc quyền của OpenAI. Sử dụng kỹ thuật TAO, Databricks đã khiến Llama 3.1B đạt 82,8 phần trăm trên FinanceBench, vượt qua các mô hình của OpenAI.

“Ý tưởng chung rất hứa hẹn”, Christopher Amato, một nhà khoa học máy tính tại Đại học Northeastern, người làm việc về học tăng cường, cho biết. “Tôi hoàn toàn đồng ý rằng việc thiếu dữ liệu đào tạo tốt là một vấn đề lớn”.

Amato cho biết nhiều công ty hiện đang tìm cách đào tạo các mô hình AI bằng dữ liệu tổng hợp và học tăng cường. Phương pháp TAO "rất hứa hẹn vì nó có thể cho phép dán nhãn dữ liệu có khả năng mở rộng hơn nhiều và thậm chí cải thiện hiệu suất theo thời gian khi các mô hình trở nên mạnh hơn và các nhãn trở nên tốt hơn theo thời gian", ông nói.

Tuy nhiên, Amato nói thêm rằng đôi khi phương pháp học tăng cường có thể hoạt động theo cách không thể đoán trước, nghĩa là cần phải sử dụng một cách thận trọng.

Frankle cho biết DataBricks đang sử dụng kỹ thuật TAO để tăng hiệu suất của các mô hình AI của khách hàng và giúp họ xây dựng các tác nhân đầu tiên của mình. Một khách hàng, tạo ra một ứng dụng theo dõi sức khỏe, đã phát hiện ra rằng phương pháp TAO cho phép họ triển khai một mô hình AI trước đây không đủ tin cậy. "Bạn muốn [ứng dụng] phải chính xác về mặt y tế", ông nói. "Đây là một vấn đề khó khăn".

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận
Followin logo