GPT-5.2 giải quyết được một giả thuyết trong lý thuyết số và nhận được chứng nhận từ Terence Tao; Phó chủ tịch OpenAI tiết lộ những phát triển quan trọng.

avatar
36kr
01-29
Bài viết này được dịch máy
Xem bản gốc

Sáng sớm nay, OpenAI đã phát hành Prism, một công cụ nghiên cứu trí tuệ nhân tạo thế hệ mới được hỗ trợ bởi GPT-5.2. Nền tảng này cho phép các nhà khoa học viết và cộng tác trong các nghiên cứu, và hiện đã miễn phí cho tất cả người dùng có tài khoản ChatGPT. Theo lời của doanh nhân trí tuệ nhân tạo người Trung Quốc Yuchen Jin, "Mỗi bài báo sẽ liệt kê ChatGPT là đồng tác giả."

Hôm qua, Kevin Weil, Phó Chủ tịch của OpenAI và người đứng đầu đội ngũ OpenAI for Science mới thành lập, đã đăng tải trên X để hé lộ về tương lai, nói rằng: "Mục tiêu của chúng tôi là trao quyền cho mọi nhà khoa học với siêu năng lực AI để họ có thể làm được nhiều hơn và giúp thế giới tiến hành nghiên cứu khoa học ở trình độ năm 2050 vào năm 2030."

Trong ba năm kể từ khi ChatGPT trở nên phổ biến rộng rãi, công nghệ của OpenAI Sự lật đổ nhiều khía cạnh của cuộc sống hàng ngày. Giờ đây, OpenAI đang tập trung rõ ràng vào lĩnh vực nghiên cứu khoa học, nhắm đến các nhà nghiên cứu. Vào tháng 10, công ty đã thông báo thành lập một đội ngũ OpenAI for Science mới, chủ yếu dành riêng cho việc khám phá cách các Mô hình Ngôn ngữ Lớn (LLM) của họ có thể hỗ trợ các nhà nghiên cứu và tối ưu hóa các công cụ để hỗ trợ họ. Trong vài tháng qua, mạng xã hội đã chứng kiến ​​lượng lớn các nội dung liên quan, và các tạp chí học thuật đã công bố nhiều kết quả nghiên cứu. Các nhà nghiên cứu từ các lĩnh vực như toán học, vật lý học và sinh học đã viết các bài báo mô tả cách các Mô hình Ngôn ngữ Lớn, đặc biệt là GPT-5, đã giúp họ thực hiện các khám phá mới hoặc chỉ dẫn họ đến các giải pháp mà họ có thể đã bỏ lỡ.

Vậy tại sao OpenAI lại chọn thời điểm này để tham gia lĩnh vực này? Động thái này nhằm đạt được những mục tiêu gì? Việc tập trung vào nghiên cứu khoa học của họ phù hợp như thế nào với sứ mệnh rộng lớn hơn của công ty? OpenAI thực chất là một người đến muộn trong lĩnh vực này. Google DeepMind đã thành lập đội ngũ AI dành cho khoa học của mình từ nhiều năm trước, tạo ra các mô hình khoa học đột phá như AlphaFold và AlphaEvolve. Trong một cuộc phỏng vấn năm 2023, CEO kiêm đồng sáng lập của Google DeepMind, Demis Hassabis, đã phát biểu về đội ngũ: "Đây là động lực ban đầu để thành lập DeepMind. Trên thực tế, đó là lý do tôi đã cống hiến toàn bộ sự nghiệp của mình cho AI."

Trong một cuộc phỏng vấn gần đây, Kevin Weil không chỉ trực tiếp giải đáp những câu hỏi này mà còn đưa ra đánh giá thận trọng hơn về khả năng của mô hình hiện tại so với trước đây: Mô hình chưa đạt đến mức có thể tạo ra những khám phá mới Sự lật đổ, nhưng nếu nó có thể giúp mọi người tiết kiệm thời gian giải quyết những vấn đề đã được giải quyết, nó có thể thúc đẩy nghiên cứu khoa học. Điều thú vị là, ông tiết lộ rằng một nhà nghiên cứu đã chủ động liên hệ với OpenAI và đăng ký dịch vụ GPT-5 trả phí đã báo cáo rằng GPT-5 mắc một số lỗi cơ bản, thậm chí còn ngớ ngẩn hơn cả lỗi của con người, nhưng nó đang liên tục được cải thiện.

Ngoài ra, phù hợp với chiến lược của OpenAI trong lĩnh vực nghiên cứu AI, họ sẽ tối ưu hóa thiết kế tổng thể của mô hình theo hai cách chính: thứ nhất, bằng cách làm cho GPT-5 giảm mức độ tự tin khi đưa ra câu trả lời, từ đó thể hiện sự khiêm nhường về nhận thức; và thứ hai, bằng cách sử dụng GPT-5 để thực hiện kiểm chứng thông tin đầu ra của chính nó.

“Tầm quan trọng của năm 2026 đối với lĩnh vực nghiên cứu khoa học sẽ tương đương với năm 2025 đối với kỹ thuật phần mềm,” Weil nói. “Vào đầu năm 2025, nếu ai đó sử dụng AI để viết phần lớn mã, họ chỉ là những người tiên phong; nhưng 12 tháng sau, nếu họ vẫn chưa sử dụng AI để viết phần lớn mã, họ có thể đã tụt hậu. Hiện tại, lĩnh vực nghiên cứu khoa học đang cho thấy đà phát triển ban đầu tương tự như lĩnh vực lập trình. Một năm nữa, nếu một nhà nghiên cứu vẫn chưa tận dụng độ sâu AI trong nghiên cứu của mình, họ sẽ bỏ lỡ cơ hội nâng cao chất lượng tư duy và đẩy nhanh tiến độ nghiên cứu.”

Khả năng mô hình hóa của Trí tuệ Nhân tạo Tổng quát (AGI) đã vượt trội so với 90% sinh viên sau đại học; giá trị lớn nhất của AGI nằm ở việc thúc đẩy tiến bộ khoa học.

Vài năm trước, Weil gia nhập OpenAI với tư cách Giám đốc Sản phẩm, trước đó ông từng giữ chức Trưởng bộ phận Sản phẩm tại Twitter và Instagram. Tuy nhiên, sự nghiệp của ông bắt đầu từ nghiên cứu khoa học: ông đã hoàn thành hai phần ba luận án tiến sĩ vật lý hạt tại Đại học Stanford trước khi rời bỏ giới học thuật để theo đuổi giấc mơ ở Thung lũng Silicon. Weil rất vui khi nhắc đến bối cảnh học thuật này, ông nói: "Tôi từng nghĩ mình sẽ làm giáo sư vật lý suốt đời, và tôi vẫn đọc sách toán học trong những kỳ nghỉ."

Khi được hỏi OpenAI for Science phù hợp như thế nào với các công cụ tăng năng suất dành cho nhân viên văn phòng hiện có của công ty và ứng dụng video Sora cực kỳ phổ biến, Weil lập tức trả lời: "Sứ mệnh của OpenAI là phát triển trí tuệ nhân tạo tổng quát (AGI) và làm cho công nghệ này mang lại lợi ích cho toàn nhân loại." Ông gợi ý hãy tưởng tượng những thay đổi trong tương lai mà công nghệ này có thể mang lại cho lĩnh vực nghiên cứu khoa học: các loại thuốc, vật liệu và thiết bị hoàn toàn mới.

“Hãy tưởng tượng xem nó có thể giúp chúng ta khám phá bản chất của thực tại và giải quyết những vấn đề khoa học chưa được giải đáp như thế nào. Có lẽ giá trị quan trọng và tích cực nhất mà Trí tuệ Nhân tạo Tổng quát (AGI) có thể tạo ra cho nhân loại là khả năng thúc đẩy tiến bộ khoa học,” ông nói thêm. “Sự xuất hiện của GPT-5 đã cho chúng ta thấy khả năng này.”

Theo Weil, các mô hình ngôn ngữ quy mô lớn hiện nay đủ tốt để trở thành cộng tác viên quý giá cho các nhà nghiên cứu. Chúng có thể tạo ra ý tưởng, đề xuất hướng nghiên cứu mới và tìm ra mối liên hệ hữu ích giữa các vấn đề mới và các giải pháp cũ đã được công bố hàng thập kỷ trước trên các tạp chí ít người biết đến hoặc bằng tiếng nước ngoài. Nhưng điều này không đúng khoảng một năm trước. Kể từ khi phát hành mô hình suy luận đầu tiên (một mô hình học logic phân tích vấn đề thành nhiều bước và giải quyết từng bước một) vào tháng 12 năm 2024, OpenAI đã liên tục đẩy mạnh giới hạn của công nghệ này. Sự ra đời của mô hình suy luận đã nâng cao đáng kể khả năng của các mô hình ngôn ngữ quy mô lớn trong việc giải quyết các vấn đề toán học và logic.

“Vài năm trước, một mô hình đạt điểm 800 trong kỳ thi SAT đã đủ khiến tất cả chúng ta kinh ngạc,” Weil nói. Giờ đây, các mô hình ngôn ngữ quy mô lớn đang giành chiến thắng trong các cuộc thi toán học và giải quyết các bài toán vật lý ở cấp độ sau đại học. Năm ngoái, cả OpenAI và Google DeepMind đều thông báo rằng các mô hình ngôn ngữ quy mô lớn của họ đã đạt được kết quả ở cấp độ huy chương vàng trong Olympic Toán học Quốc tế, một trong những cuộc thi toán học khó khăn nhất thế giới. Weil tuyên bố, “Khả năng của các mô hình này từ lâu đã vượt xa khả năng của 90% sinh viên sau đại học; chúng thực sự đã đạt đến giới hạn khả năng của con người.”

Khẳng định này khá táo bạo, nhưng không phải không có thiếu sót. Tuy nhiên, không thể phủ nhận rằng GPT-5, được trang bị mô hình suy luận, представляет một bước tiến đáng kể so với GPT-4 trong việc giải quyết các vấn đề phức tạp. Bài kiểm tra chuẩn mực ngành GPQA chứa hơn 400 câu hỏi trắc nghiệm, đặc biệt kiểm tra kiến ​​thức chuyên môn ở cấp độ tiến sĩ trong sinh học, vật lý và hóa học. GPT-4 chỉ đạt tỷ lệ chính xác 39% trong bài kiểm tra này, thấp hơn nhiều so với mức chuẩn khoảng 70% của các chuyên gia con người. Ngược lại, theo dữ liệu của OpenAI, phiên bản mới nhất của GPT-5, GPT-5.2, được phát hành vào tháng 12 năm 2024, đã đạt tỷ lệ chính xác 92%.

Ngay cả sau khi nghiên cứu các bài báo khoa học trong suốt 30 năm, mô hình này vẫn không đưa ra được Sự lật đổ.

Sự phấn khích của Weil là điều dễ nhận thấy, nhưng có lẽ hơi thái quá. Tháng 10 năm ngoái, Weil và các lãnh đạo khác của OpenAI đã công khai tuyên bố trên nền tảng X rằng GPT-5 đã tìm ra lời giải cho một số bài toán toán học chưa được giải quyết. Tuy nhiên, các nhà toán học nhanh chóng chỉ ra rằng GPT-5 thực chất chỉ tìm ra những câu trả lời đã có từ các bài nghiên cứu trước đó, trong đó ít nhất một bài báo của Đức. Mặc dù những khả năng như vậy rất có giá trị, nhưng chúng còn xa so với thành tựu đột phá mà OpenAI tuyên bố. Weil và các đồng nghiệp sau đó đã xóa các bài đăng liên quan.

Vào thời điểm đó, điều này đã gây ra khá nhiều xôn xao. Ban đầu, có tin đồn rằng GPT-5 đã giải quyết được 10 bài toán Erdős chưa được giải trước đó và đạt được tiến bộ trên 11 bài toán khác. Tuy nhiên, Thomas Bloom, nhà toán học chịu trách nhiệm duy trì trang web về bài toán Erdős, đã làm rõ rằng GPT-5 chỉ đơn giản là tìm thấy một số tham khảo có thể giải quyết những vấn đề này. Giám đốc điều hành của DeepMind, Demis Hassabis, chỉ ra rằng việc truyền đạt thông tin của đội ngũ là "quá vội vàng". Cựu nhà khoa học AI trưởng của Meta, Yann LeCun, đã mỉa mai nhận xét rằng OpenAI đã "bị chính những người ủng hộ GPT của mình nâng đỡ", "tự mình nhấc hòn đá GPT lên và tự bắn vào chân mình".

Cách đây vài ngày, tin tức lan truyền rằng GPT-5.2 Pro đã giải được giả thuyết Erdős, cụ thể là bài toán số 281 trong cơ sở dữ liệu bài toán Erdős. Bằng chứng lần được dẫn đầu bởi nhà toán học Neel Somani, và quá trình này đã được xác nhận bởi người đoạt giải Fields Medal, Terence Tao, người đã mô tả nó là "một trong những ví dụ rõ ràng nhất về trí tuệ nhân tạo giải quyết các bài toán toán học mở". Hiện tại, bằng chứng của GPT-5.2 Pro về bài toán này đã được đưa lên trang web về bài toán Erdős.

Có thông tin cho rằng GPT-5.2Pro đưa ra một phương pháp mới cho vấn đề này. Mặc dù bỏ qua các bằng chứng trước đó, Terence Tao chỉ ra rằng phương pháp chứng minh của GPT-5.2Pro "khá khác biệt" so với phương pháp trước đây, chỉ có một số điểm trùng lặp về mặt khái niệm. Hiện nay có hai cách tiếp cận khả thi cho vấn đề này: một là khung lý thuyết ergodic được GPT-5.2Pro sử dụng, dựa trên một biến thể của "nguyên tắc tương ứng Ferstenberg"; cách còn lại là sự kết hợp của hai định lý đã tồn tại từ năm 1936 và 1966: định lý Davenport-Eldos và định lý Rogers, với một lời giải đơn giản hơn.

Tuy nhiên, Weil hiện thận trọng hơn. Ông cho rằng việc tìm ra những câu trả lời đã tồn tại nhưng bị lãng quên tự nó đã là một điều quan trọng: "Chúng ta đều đang đứng trên vai những người khổng lồ. Nếu các mô hình ngôn ngữ lớn có thể tích hợp kiến ​​thức này, cho phép chúng ta tránh lãng phí thời gian vào những vấn đề đã được giải quyết, thì bản thân điều đó đã là một sự thúc đẩy nghiên cứu khoa học." Ông cũng hạ thấp tuyên bố rằng các mô hình ngôn ngữ lớn sẽ sớm tạo ra những khám phá Sự lật đổ: "Tôi không cho rằng các mô hình hiện tại đã đạt đến trình độ đó, nhưng có lẽ chúng sẽ đạt được trong tương lai. Tôi lạc quan về điều đó."

Tuy nhiên, ông nhấn mạnh rằng đó không phải là nhiệm vụ cốt lõi của đội ngũ: "Nhiệm vụ của chúng tôi là thúc đẩy tiến bộ khoa học, và tiêu chuẩn để thúc đẩy tiến bộ khoa học không nhất thiết phải đòi hỏi việc tái cấu trúc hoàn toàn toàn bộ lĩnh vực như Einstein đã làm." Theo quan điểm của Weil, chỉ có một câu hỏi cốt lõi: Tốc độ tiến bộ khoa học có thực sự nhanh hơn không? "Khi các nhà nghiên cứu hợp tác với các mô hình, họ có thể hoàn thành nhiều công việc hơn và hiệu quả hơn so với khi nghiên cứu một mình. Tôi cho rằng chúng ta đã thấy điều đó rồi."

Tháng 11 năm ngoái, OpenAI đã công bố sê-ri các nghiên cứu điển hình do các nhà nghiên cứu trong và ngoài công ty cung cấp, thể hiện các ứng dụng thực tiễn của GPT-5 và vai trò của nó trong việc hỗ trợ nghiên cứu khoa học thông qua các ví dụ thực tế. Weil cho biết: "Hầu hết các nhà nghiên cứu trong những trường hợp này đều đã sử dụng GPT-5 trực tiếp trong nghiên cứu của họ. Họ đã liên hệ với chúng tôi qua nhiều kênh khác nhau, nói rằng, 'Hãy xem những công cụ này có thể giúp ích gì cho tôi.'" GPT-5 nổi trội trong việc: xác định các phát hiện nghiên cứu hiện có và các manh mối liên quan mà các nhà nghiên cứu chưa nhận ra, đôi khi có thể khơi nguồn cho những ý tưởng mới; hỗ trợ các nhà nghiên cứu trong việc soạn thảo các chứng minh toán học; và cung cấp các ý tưởng thí nghiệm để các nhà nghiên cứu kiểm chứng giả thuyết trong phòng thí nghiệm.

“GPT 5.2 đã đọc gần như mọi bài báo được xuất bản trong 30 năm qua. Nó không chỉ hiểu nội dung các lĩnh vực nghiên cứu của các nhà khoa học, mà còn trích xuất các ý tưởng tương tự từ các lĩnh vực không liên quan khác,” Weil nói. “Điều này vô cùng mạnh mẽ. Bạn luôn có thể tìm thấy cộng tác viên là con người trong các lĩnh vực liên quan, nhưng tìm kiếm hàng nghìn cộng tác viên trong hàng nghìn lĩnh vực có khả năng liên quan thì khó hơn nhiều. Ngoài ra, tôi có thể làm việc với mô hình đến tận khuya; nó không bao giờ cần nghỉ ngơi, và tôi có thể hỏi nó mười câu hỏi cùng một lúc. Làm những việc này với con người chắc chắn sẽ rất khó xử.”

Robot GPT-5 mắc nhiều lỗi hơn con người, và liệu robot có sẵn lòng tuân theo mệnh lệnh của nó hơn không?

Theo các báo cáo, OpenAI đã liên hệ với một số nhà nghiên cứu để xác nhận quan điểm của Weil, và phần lớn trong đó đều đồng ý. Robert Scherrer, giáo sư vật lý và thiên văn học tại Đại học Vanderbilt, trước đây chỉ sử dụng ChatGPT như một thú vui giải trí. Ông nói với tôi: "Tôi từng nhờ nó viết lại bài hát chủ đề của phim Gilligan's Isle theo phong cách Beowulf, và nó đã làm rất tốt." Mãi đến khi đồng nghiệp của ông tại Vanderbilt, Alex Lupsasca, một nhà vật lý hiện đang làm việc tại OpenAI, nói với ông rằng GPT-5 đã giúp anh ấy giải quyết một vấn đề trong nghiên cứu của mình, ông mới thay đổi quan điểm về mô hình này.

Lupsasca đã đăng ký dịch vụ GPT-5 Pro cho Scherrer, dịch vụ cao cấp trị giá 200 đô la mỗi tháng của OpenAI. Scherrer cho biết: "Tôi và các sinh viên cao học của mình đã vật lộn với một vấn đề trong nhiều tháng mà không có kết quả, nhưng GPT-5 đã giải quyết được nó." Tuy nhiên, ông cũng thừa nhận rằng mô hình này không hoàn hảo: "GPT-5 vẫn mắc một số lỗi cơ bản. Tất nhiên, bản thân tôi cũng mắc lỗi, nhưng lỗi của GPT-5 thì ngớ ngẩn hơn." Tuy nhiên, ông khẳng định sự tiến bộ của nó rất đáng kể: "Nếu xu hướng hiện tại tiếp tục, tôi nghĩ rằng chẳng bao lâu nữa tất cả các nhà nghiên cứu sẽ sử dụng các mô hình ngôn ngữ quy mô lớn. Tất nhiên, đây chỉ là một giả thuyết."

Derya Unutmaz, giáo sư sinh học tại Phòng thí nghiệm Jackson, một tổ chức nghiên cứu phi lợi nhuận, sử dụng GPT-5 để lên ý tưởng, tóm tắt bài báo và lập kế hoạch thí nghiệm trong nghiên cứu liên quan đến hệ thống miễn dịch. Trong một nghiên cứu điển hình mà ông chia sẻ với OpenAI, đội ngũ của ông đã phân tích một dữ liệu cũ, và phân tích dữ liệu này của GPT-5 đã mang lại nhận xét và cách diễn giải hoàn toàn mới. Ông nói: "Các mô hình ngôn ngữ quy mô lớn đã trở nên vô cùng quan trọng đối với các nhà khoa học. Việc phân tích dữ liệu mà trước đây mất hàng tháng trời giờ đây có thể được thực hiện bằng các mô hình ngôn ngữ quy mô lớn; nếu không có chúng thì điều đó là không thể."

Nikita Zhivotovskiy, một nhà thống kê học tại Đại học California, Berkeley, cho biết ông đã sử dụng các mô hình ngôn ngữ lớn trong nghiên cứu của mình kể từ khi phiên bản đầu tiên của ChatGPT được phát hành. Giống như Scherrer, ông cho rằng khía cạnh hữu ích nhất của các mô hình ngôn ngữ lớn là khả năng khám phá ra những mối liên hệ bất ngờ giữa nghiên cứu của ông và những phát hiện hiện có chưa được biết đến trước đây. “Tôi tin rằng các mô hình ngôn ngữ lớn đang trở thành một công cụ công nghệ không thể thiếu đối với các nhà khoa học, giống như máy tính và internet trước đây. Những người từ chối sử dụng các công cụ này sẽ gặp bất lợi về lâu dài.” Tuy nhiên, ông không kỳ vọng các mô hình ngôn ngữ lớn sẽ mang lại bất kỳ khám phá mới nào trong ngắn hạn. “Tôi hầu như chưa thấy mô hình nào đưa ra quan điểm hoặc lập luận thực sự mới đáng được công bố riêng. Cho đến nay, chúng dường như chủ yếu tích hợp các nghiên cứu hiện có, đôi khi mắc lỗi, hơn là tạo ra phương pháp nghiên cứu thực sự mới.”

Một số nhà nghiên cứu không có liên hệ gì với OpenAI lại không lạc quan như vậy.

Andy Cooper, Giáo sư Hóa học tại Đại học Liverpool và Giám đốc Trung tâm Thiết kế Vật liệu Chức năng Leverhum, cho biết: “Cho đến nay, chúng ta chưa thấy các mô hình ngôn ngữ lớn làm thay đổi căn bản cách thức nghiên cứu khoa học được thực hiện, nhưng những phát hiện gần đây của chúng tôi cho thấy những công cụ như vậy có ích.” Cooper đang dẫn đầu việc phát triển một hệ thống gọi là nhà khoa học AI, một hệ thống có thể tự động hóa hoàn toàn một phần quy trình nghiên cứu. Ông cho biết đội ngũ của mình sẽ không sử dụng các mô hình ngôn ngữ lớn để hình thành ý tưởng nghiên cứu, nhưng công nghệ này đang bắt đầu cho thấy giá trị thực tiễn trong các hệ thống tự động hóa lớn hơn, chẳng hạn như khi các mô hình ngôn ngữ lớn có thể hỗ trợ điều khiển robot.

“Tôi nghi ngờ rằng các mô hình ngôn ngữ lớn sẽ được sử dụng nhiều hơn trong quy trình làm việc của robot, ít nhất là ban đầu. Bởi vì tôi không chắc liệu mọi người có sẵn lòng tuân theo các mệnh lệnh của các mô hình ngôn ngữ lớn hay không; bản thân tôi chắc chắn sẽ không làm vậy,” Cooper nói.

Mục tiêu chính đội ngũ: làm cho GPT bớt tự tin và khiêm tốn hơn.

Tính khả thi của các mô hình ngôn ngữ lớn có thể tăng lên mỗi ngày, nhưng sự thận trọng vẫn là điều tối quan trọng. Tháng 12 năm ngoái, Jonathan Oppenheim, một nhà khoa học nghiên cứu cơ học lượng tử, đã chỉ ra một lỗi do mô hình ngôn ngữ lớn gây ra trong một tạp chí khoa học. Ông đã đăng một bài báo trên nền tảng X, trong đó nêu rõ: "Ban quản lý của OpenAI đang quảng bá một bài báo trên *Physics Letters B*, trong đó những ý tưởng cốt lõi được đề xuất bởi GPT-5. Đây có thể là bài báo đầu tiên có quan điểm cốt lõi được đóng góp bởi một mô hình ngôn ngữ lớn và được bình duyệt. Tuy nhiên, có một vấn đề nhỏ: ý tưởng được đề xuất của GPT-5 hoàn toàn sai về đối tượng kiểm chứng. Các nhà nghiên cứu đã yêu cầu GPT-5 thiết kế một thí nghiệm kiểm chứng để phát hiện các lý thuyết phi tuyến tính, nhưng nó lại cung cấp một phương án để phát hiện các lý thuyết phi cục bộ. Hai điều này có vẻ liên quan, nhưng thực chất lại hoàn toàn khác nhau. Giống như bạn muốn một bộ xét nghiệm COVID-19, nhưng một mô hình ngôn ngữ lớn lại nhiệt tình đưa cho bạn một bộ xét nghiệm thủy đậu."

Rõ ràng, nhiều nhà nghiên cứu đang sử dụng các mô hình ngôn ngữ lớn theo những cách sáng tạo và thiết thực. Tuy nhiên, cũng dễ thấy rằng những lỗi mà công nghệ này có thể gây ra rất tinh vi, thậm chí không được các chuyên gia nhận ra. Vấn đề này một phần xuất phát từ bản chất tương tác của ChatGPT, thường sử dụng giọng điệu hòa giải để ru ngủ người dùng vào cảm giác an toàn giả tạo. Như Jonathan Oppenheim đã nói, "Vấn đề cốt lõi là mục tiêu huấn luyện của các mô hình ngôn ngữ lớn là phục vụ người dùng, trong khi nghiên cứu khoa học cần những công cụ thách thức chúng ta." Trong một trường hợp cực đoan, một người bình thường ngoài lĩnh vực nghiên cứu đã bị ChatGPT đánh lừa và tin tưởng trong nhiều tháng rằng họ đã phát minh ra một nhánh toán học mới.

Dĩ nhiên, Weil nhận thức rõ vấn đề ảo giác trong các mô hình ngôn ngữ lớn, nhưng ông nhấn mạnh rằng xác suất các mô hình thế hệ mới tạo ra ảo giác đã giảm đi đáng kể. Tuy nhiên, ông cho rằng rằng chỉ tập trung vào ảo giác có thể bỏ sót vấn đề cốt lõi.

“Một đồng nghiệp của tôi, một cựu giáo sư toán học, từng nói một điều khiến tôi ấn tượng sâu sắc: ‘Khi tôi nghiên cứu, tôi trao đổi ý tưởng với các đồng nghiệp, và 90% quan điểm của tôi là sai, nhưng đó chính xác là điểm mấu chốt. Tất cả chúng ta đều mạnh dạn động não tìm kiếm ý tưởng, chỉ để tìm ra một hướng nghiên cứu khả thi.’” Weil nói, “Đây thực sự là trạng thái lý tưởng trong nghiên cứu khoa học. Khi bạn đưa ra đủ quan điểm không chính xác, ai đó vô tình phát hiện ra một tia sáng chân lý, và người khác nắm bắt điều này và tiếp tục thảo luận: ‘Những gì bạn nói không hoàn toàn chính xác, nhưng nếu chúng ta thay đổi quan điểm,’ mọi người có thể dần dần tìm ra con đường tiến lên trong màn sương mù của nghiên cứu khoa học.”

Đây chính xác là viễn cảnh mong đợi cốt lõi mà Weil đặt ra cho OpenAI for Science. Ông cho rằng rằng mặc dù GPT-5 rất xuất sắc, nhưng nó không phải là thuốc chữa bách bệnh. Giá trị của công nghệ này nằm ở việc hướng dẫn mọi người khám phá những hướng đi mới, chứ không phải cung cấp câu trả lời cuối cùng. Trên thực tế, OpenAI hiện đang nghiên cứu tối ưu hóa một tính năng của GPT-5: làm cho nó giảm mức độ tự tin khi đưa ra câu trả lời. Nó sẽ không còn trực tiếp nói "câu trả lời ở đây", mà sẽ nói với các nhà nghiên cứu một cách tinh tế hơn: "Những ý tưởng sau đây chỉ mang tham khảo". "Đây chính xác là điều mà chúng tôi hiện đang đầu tư lượng lớn nỗ lực: cố gắng làm cho mô hình có một sự khiêm tốn nhất định về mặt nhận thức", Weil nói.

Mới đây, người ta đã tiết lộ rằng một hướng đi khác mà OpenAI đang nghiên cứu là sử dụng GPT-5 để kiểm chứng lại chính kết quả đầu ra của mình. Trong các ứng dụng thực tế, thường thấy trường hợp nếu bạn nhập lại câu trả lời của GPT-5 vào mô hình, nó sẽ phân tích từng dòng và chỉ ra trong đó. Weil cho biết: "Chúng ta có thể để mô hình hoạt động như một người kiểm chứng chính nó. Điều này cho phép chúng ta xây dựng một quy trình làm việc: mô hình trước tiên hoàn thành quá trình suy luận ban đầu, sau đó gửi kết quả cho một mô hình khác để xem xét; nếu mô hình này tìm thấy các điểm cần cải thiện, nó sẽ đưa kết quả trở lại mô hình ban đầu, chỉ ra rằng 'Lưu ý rằng phần này không chính xác, nhưng dòng suy nghĩ này có giá trị và có thể được giữ lại.' Điều này giống như hai tác nhân thông minh làm việc cùng nhau; chỉ sau khi kết quả đầu ra vượt qua sự xem xét của người kiểm chứng, nó mới được trình bày cuối cùng."

Cơ chế này rất giống với mô hình mà Google DeepMind đã phát triển cho AlphaEvolve. AlphaEvolve là một công cụ bao gồm mô hình ngôn ngữ lớn Gemini trong một hệ thống lớn hơn, có chức năng lọc ra các phản hồi chất lượng cao và đưa chúng trở lại mô hình để cải thiện. Google DeepMind đã sử dụng AlphaEvolve để giải quyết một số vấn đề nghiên cứu khoa học thực tế.

Hiện nay, OpenAI đang phải đối mặt với sự cạnh tranh gay gắt từ các công ty khác, với các mô hình ngôn ngữ quy mô lớn, dù không thể đạt được tất cả các tính năng mà OpenAI tuyên bố, nhưng vẫn có thể thực hiện được hầu hết các tính năng đó. Nếu vậy, tại sao các nhà nghiên cứu lại chọn GPT-5 thay vì Gemini hoặc các mô hình sê-ri Claude của Anthropic, vốn cũng đang được cải tiến và nâng cấp hàng năm? Cuối cùng, chiến lược của OpenAI đối với Khoa học chủ yếu là giành lợi thế sớm trong lĩnh vực mới này. Tuy nhiên, sự đổi mới công nghệ thực sự vẫn chưa xuất hiện.

Liên kết tham khảo:

https://www.technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/

https://openai.com/zh-Hans-CN/prism/

Bài viết này được trích từ tài khoản chính thức "AI Frontline" trên WeChat, do Huawei biên soạn và được đăng tải với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận