Tại sao GPT-5 và Opus 3.5 vẫn chưa được phát hành? Phỏng đoán mới: Đã ra đời, chắt lọc thành mẫu nhỏ để bán

avatar
36kr
01-17
Bài viết này được dịch máy
Xem bản gốc

"Từ giờ trở đi, mô hình cơ sở có thể chạy ở chế độ nền, cho phép các mô hình khác thực hiện những kỳ công mà bản thân họ không thể thực hiện được - giống như một ẩn sĩ già truyền đạt trí tuệ từ một hang động bí mật."

Trong những tháng gần đây, nhiều phương tiện truyền thông, cộng đồng AI và cư dân mạng đã chú ý đến tiến trình của mô hình lớn thế hệ tiếp theo "GPT-5" của OpenAI.

Chúng ta đều biết rằng OpenAI đang làm việc trên các mô hình mới và các mô hình mới có thể gặp khó khăn và không thể ra mắt theo kế hoạch, nhưng nếu ai đó nói rằng GPT-5 đã định hình thế giới ở đâu đó, bạn sẽ nghĩ sao?

Giả thuyết như sau: OpenAI đã xây dựng GPT-5, nhưng vẫn giữ nó trong nội bộ vì lợi tức đầu tư cao hơn nhiều so với việc phát hành nó cho hàng triệu người dùng ChatGPT. Hơn nữa, lợi tức đầu tư họ nhận được không phải là tiền. Như bạn có thể thấy, ý tưởng rất đơn giản. Khó khăn nằm ở việc kết nối các chi tiết. Gần đây, nhà phân tích kỹ thuật Alberto Romero đã khám phá sâu ý tưởng này.

Đầu tiên, cần làm rõ: đây không phải là phỏng đoán đáng tin cậy 100%. Bằng chứng được công khai nhưng không có rò rỉ hoặc tin đồn nội bộ nào xác nhận ý tưởng này. Tác giả không được cung cấp thông tin độc quyền - nếu có, dù sao thì anh ta cũng đã ký một thỏa thuận bảo mật. Tuy nhiên, ít nhất về mặt logic, phỏng đoán này có vẻ thuyết phục.

Hãy xem bài viết này nói gì.

Địa chỉ gốc: https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

1. Sự biến mất bí ẩn của Opus 3.5

Trước khi giới thiệu GPT-5, trước tiên chúng ta phải đến thăm họ hàng xa của nó, Claude Opus 3.5 của Anthropic cũng đã mất tích.

Như bạn đã biết, OpenAI, Google DeepMind và Anthropic, ba phòng thí nghiệm trí tuệ nhân tạo lớn ở nước ngoài, cung cấp sê-ri dịch vụ mô hình lớn bao gồm nhiều mức giá, độ trễ và phạm vi hiệu suất khác nhau. OpenAI cung cấp GPT-4o, GPT-4o mini, o1 và o1-mini, v.v.; Google DeepMind cung cấp Gemini Ultra, Pro và Flash; Anthropic cung cấp Claude Opus, Sonnet và Haiku.

Mục tiêu của họ rất rõ ràng: phục vụ càng nhiều khách hàng càng tốt. Một số ưu tiên hiệu suất cao nhất, trong khi những người khác tìm kiếm giải pháp đủ tốt, giá cả phải chăng và cho đến nay vẫn rất tốt.

Nhưng điều kỳ lạ đã xảy ra vào tháng 10 năm 2024. Mọi người đang mong đợi Anthropic sẽ công bố Claude Opus 3.5 để đáp lại GPT-4o (ra mắt vào tháng 5 năm 2024). Tuy nhiên, vào ngày 22 tháng 10, họ đã phát hành phiên bản cập nhật của Claude Sonnet 3.5 (mọi người bắt đầu gọi nó là Sonnet 3.6). Opus 3.5 bị thiếu. Có vẻ như Anthropic không có đối thủ cạnh tranh trực tiếp với GPT-4o. Có vẻ như có vấn đề với tiến độ nghiên cứu ở đây. Đây là những gì mọi người đang nói và những gì đang thực sự xảy ra với Opus 3.5:

Vào ngày 28 tháng 10, có tin đồn rằng Sonnet 3.6 là... điểm kiểm tra trung gian trong thất bại huấn luyện của Opus 3.5 rất được mong đợi. Một bài viết xuất hiện trên subreddit r/ClaudeAI nói rằng Claude 3.5 Opus không được dùng nữa, cùng với liên kết đến trang mô hình Anthropic. Tính đến hôm nay, trang này không đề cập đến Opus 3.5. Đã có suy đoán rằng việc loại bỏ Opus 3.5 là một động thái chiến lược nhằm duy trì niềm tin của các nhà đầu tư trước vòng cấp vốn sắp tới.

Vào ngày 11 tháng 11, Giám đốc điều hành Anthropic Dario Amodei đã xua tan tin đồn bằng cách phủ nhận trên Lex Fridman Podcast rằng họ đã từ bỏ Opus 3.5: “Không có ngày chính xác nào được đưa ra, nhưng theo như chúng tôi biết thì kế hoạch vẫn là ra mắt Claude 3.5 Opus” Thận trọng. , nhưng xác nhận.

Vào ngày 13 tháng 11, một báo cáo của Bloomberg đã xác nhận những tin đồn trước đó: “Sau khi đào tạo, Anthropic nhận thấy rằng 3.5 Opus hoạt động tốt hơn trong đánh giá so với các phiên bản cũ, nhưng lợi thế không đáng kể so với kích thước của mô hình cũng như chi phí xây dựng và vận hành nó. tốt như lẽ ra phải thế." Dario dường như chưa đưa ra ngày tháng, bởi vì mặc dù quá trình huấn luyện Opus 3.5 không thất bại nhưng kết quả lại kém khả quan. Lưu ý rằng trọng tâm là chi phí liên quan đến hiệu suất, không chỉ hiệu suất.

Vào ngày 11 tháng 12, chuyên gia bán dẫn Dylan Patel và đội ngũ Semianalysis của ông đã đưa ra tình tiết cuối cùng, đề xuất lời giải thích kết hợp tất cả các điểm dữ liệu thành một câu chuyện mạch lạc: “Anthropic đã hoàn thành việc đào tạo Claude 3.5 Opus và nó hoạt động Tốt và mở rộng phù hợp. .. nhưng Anthropic không phát hành đó là do Anthropic không phát hành công khai và sử dụng Claude 3.5 Opus. để tạo dữ liệu tổng hợp và thực hiện mô hình phần thưởng, cùng với dữ liệu người dùng đã cải thiện đáng kể Claude 3.5 Sonnet.”

Nói tóm lại, Anthropic đã đào tạo mô hình lớn Claude Opus 3.5. Họ bỏ tên vì nó không đủ hay. Dario tin rằng những nỗ lực đào tạo khác nhau có thể cải thiện kết quả và do đó tránh đưa ra ngày phát hành. Bloomberg xác nhận rằng kết quả tốt hơn so với các mô hình hiện có, nhưng không đủ để biện minh cho chi phí suy luận. Dylan và đội ngũ của anh đã phát hiện ra mối liên hệ giữa Sonnet 3.6 bí ẩn và Opus 3.5 bị mất tích: Opus 3.5 bị mất tích được sử dụng nội bộ để tạo ra dữ liệu tổng hợp nhằm cải thiện hiệu suất của Opus 3.5.

2. Những mẫu mã tốt hơn sẽ nhỏ hơn và rẻ hơn?

Quá trình sử dụng một mô hình mạnh, đắt tiền để tạo ra dữ liệu nhằm cải thiện hiệu suất của một mô hình yếu hơn một chút nhưng rẻ hơn được gọi là quá trình chưng cất. Đây là một thực tế phổ biến. Kỹ thuật này cho phép các phòng thí nghiệm AI cải thiện các mô hình nhỏ của họ đến mức không thể thực hiện được nếu chỉ đào tạo trước bổ sung.

Có phương pháp chưng cất khác nhau, nhưng chúng ta sẽ không đi sâu vào vấn đề đó. Điều bạn cần nhớ là mô hình mạnh là “giáo viên” thay đổi mô hình “học sinh” từ [nhỏ, rẻ, nhanh] + yếu thành [nhỏ, rẻ, nhanh] + mạnh. Quá trình chưng cất biến những mô hình mạnh mẽ thành mỏ vàng. Dylan giải thích lý do tại sao Anthropic làm điều này cho cặp mẫu Opus 3.5-Sonnet 3.6 là hợp lý:

Chi phí suy luận (Sonnet mới so với Sonnet cũ) không thay đổi đáng kể nhưng hiệu suất mô hình được cải thiện. Tại sao phát hành 3.5 Opus? Từ góc độ chi phí, điều này không hợp lý về mặt kinh tế so với việc phát hành Sonnet 3,5 đã được đào tạo thêm về Opus 3,5.

Chúng ta quay lại vấn đề chi phí: quá trình chưng cất cải thiện hiệu suất trong khi vẫn duy trì mức suy luận rẻ. Điều này ngay lập tức giải quyết được vấn đề chính với báo cáo của Bloomberg. Anthropic quyết định không phát hành Opus 3.5 không chỉ vì hiệu suất kém mà vì nó có giá trị nội bộ hơn. (Dylan cho biết đây là lý do tại sao cộng đồng mã nguồn mở bắt kịp GPT-4 nhanh đến vậy—họ đã lấy vàng trực tiếp từ mỏ vàng của OpenAI.)

Phát hiện đáng ngạc nhiên nhất là Sonnet 3.6 không chỉ tốt - nó đạt đến cấp độ SOTA và tốt hơn GPT-4o. Do được chắt lọc từ Opus 3.5 (và có lẽ vì lý do khác, 5 tháng là một khoảng thời gian dài đối với thời gian của AI), mẫu tầm trung của Anthropic vượt qua soái hạm của OpenAI. Đột nhiên, chi phí cao được chứng minh là sai lầm khi coi đó là chỉ báo cho hiệu suất cao.

Điều gì đã xảy ra với "càng lớn càng tốt"? Giám đốc điều hành OpenAI Sam Altman cảnh báo rằng thời đại này đã kết thúc. Một khi các phòng thí nghiệm hàng đầu trở nên bí mật, bảo vệ chặt chẽ những kiến ​​thức quý giá của mình, họ sẽ ngừng chia sẻ các con số. Số tham số không còn là số liệu đáng tin cậy nữa và chúng tôi đã khôn ngoan chuyển sự chú ý của mình sang hiệu suất điểm chuẩn. Kích thước mô hình cuối cùng được OpenAI tiết lộ chính thức là GPT-3 vào năm 2020, có 175 tỷ thông số. Đến tháng 6 năm 2023, có tin đồn rằng GPT-4 là mẫu hỗn hợp chuyên nghiệp với tổng cộng khoảng 1,8 nghìn tỷ thông số. Semianalysis sau đó đã xác nhận điều này trong một đánh giá chi tiết, kết luận rằng GPT-4 có 1,76 nghìn tỷ thông số. Đây là tháng 7 năm 2023.

Cho đến tháng 12 năm 2024, tức là một năm rưỡi sau, Ege Erdil, nhà nghiên cứu tại EpochAI (tổ chức tập trung vào tác động trong tương lai của AI), đã ước tính trong bài báo “Các mô hình ngôn ngữ biên giới đã trở nên nhỏ hơn nhiều” rằng các mô hình AI hàng đầu ( bao gồm GPT -4o và Sonnet 3.6) nhỏ hơn nhiều so với GPT-4 (mặc dù cả hai đều vượt trội hơn GPT-4 về điểm chuẩn):

…các mẫu máy tiên tiến hiện nay như GPT-4o và Claude 3.5 Sonnet có thể có ít thông số hơn GPT-4: 4o có khoảng 200 tỷ thông số, 3.5 Sonnet có khoảng 400 tỷ thông số… Xem xét cách tôi đạt được con số này Nói một cách đại khái, những ước tính này có thể sai lệch theo hệ số 2.

Làm sao anh ta có thể đưa ra những giá trị này mà không tiết lộ bất kỳ chi tiết kiến ​​trúc nào từ phòng thí nghiệm? Ông giải thích lý do tại sao một cách sâu sắc. Nhưng lý do này không quan trọng đối với chúng tôi. Điều quan trọng là sương mù đang tan dần: cả Anthropic và OpenAI dường như đang đi theo một quỹ đạo tương tự. Mẫu mới nhất của họ không chỉ tốt hơn mà còn nhỏ hơn và rẻ hơn so với mẫu trước đó. Chúng tôi biết rằng cách tiếp cận của Anthropic là chắt lọc Opus 3.5 thành Sonnet 3.6. Nhưng OpenAI làm điều đó như thế nào?

3. Động lực đằng sau các phòng thí nghiệm AI là phổ quát

Người ta có thể cho rằng phương pháp chưng cất của Anthropic bắt nguồn từ hoàn cảnh riêng của nó - cụ thể là kết quả đáng thất vọng trong quá trình đào tạo Opus 3.5. Nhưng trên thực tế, trường hợp của Anthropic không phải là duy nhất. Google DeepMind và OpenAI cũng báo cáo rằng kết quả đào tạo mới nhất của họ kém lý tưởng. (Cần nhấn mạnh rằng dưới mức tối ưu không có nghĩa là mô hình kém hơn.) Đối với chúng tôi, lý do dẫn đến tình trạng này không quan trọng: lợi nhuận giảm dần do không đủ dữ liệu , những hạn chế cố hữu của kiến ​​trúc Transformer, luật Scaling trước khi đào tạo trì trệ , vân vân. Bất chấp điều đó, các điều kiện đặc thù của loài người thực sự khá phổ biến.

Nhưng hãy nhớ rằng báo cáo của Bloomberg: Chỉ báo hiệu suất chỉ có thể được đánh giá khi tổng hợp chi phí? Có, Ege Erdil giải thích lý do: nhu cầu về AI tăng cao sau cơn sốt ChatGPT/GPT-4.

AI sáng tạo đang lan rộng nhanh đến mức các phòng thí nghiệm đang phải vật lộn để theo kịp, gây ra lỗ vốn ngày càng tăng trưởng. Tình huống này thúc đẩy tất cả họ phải giảm chi phí suy luận (các quá trình đào tạo chỉ được thực hiện một lần, nhưng chi phí suy luận tăng trưởng tỷ lệ thuận với số lượng người dùng và mức sử dụng). Nếu 300 triệu người sử dụng sản phẩm AI của bạn mỗi tuần, chi phí hoạt động có thể đột ngột giết chết bạn.

Cho dù lý do thúc đẩy Anthropic loại bỏ Sonnet 3.6 khỏi Opus 3.5 là gì thì nó cũng sẽ đè nặng lên OpenAI nhiều lần. Chưng cất rất hữu ích vì nó biến hai khó khăn chung thành một lợi thế: nó giải quyết chi phí suy luận bằng cách cung cấp các mô hình nhỏ hơn cho người dùng, đồng thời tránh được vấn đề hiệu suất kém khi không phát hành một mô hình lớn hơn và bị công chúng chỉ trích gay gắt.

Ege Erdil cho rằng OpenAI có thể đã chọn một phương pháp khác: tập luyện quá sức. Nghĩa là, sử dụng nhiều dữ liệu hơn mức tối ưu về tính toán để huấn luyện các mô hình nhỏ: "Khi suy luận trở thành phần chính hoặc chiếm ưu thế trong chi tiêu của bạn cho mô hình, cách tiếp cận tốt hơn là... sử dụng nhiều mã thông báo hơn. Huấn luyện các mô hình nhỏ hơn." Nhưng đào tạo quá mức là không còn khả thi nữa. Các phòng thí nghiệm AI đã cạn kiệt nguồn dữ liệu chất lượng cao để đào tạo trước. Elon Musk và Ilya Sutskever đều đã thừa nhận điều này trong những tuần gần đây.

Quay trở lại việc chưng cất, Ege Erdil kết luận: "Tôi cho rằng cả GPT-4o và Claude 3.5 Sonnet có lẽ đều được chắt lọc từ những mẫu lớn hơn."

Cho đến nay, tất cả bằng chứng đều cho thấy OpenAI đang làm những gì Anthropic đã làm với Opus 3.5 (huấn luyện và ẩn giấu) theo cùng một cách (chưng cất) và vì những lý do tương tự (hiệu suất/kiểm soát chi phí kém). Đây là một phát hiện quan trọng. Nhưng chờ đã, Opus 3.5 vẫn đang ẩn náu. Các mô hình tương tự từ OpenAI ở đâu? Nó được giấu dưới tầng hầm của công ty à? Bạn có đoán được tên của nó không...?

4. Để đi sâu vào những nơi chưa có người đặt chân, bạn phải tự tìm đường đi

Tôi bắt đầu phân tích của mình với câu chuyện Anthropic's Opus 3.5 vì có rất nhiều thông tin về nó. Sau đó, tôi sử dụng khái niệm chắt lọc để xây dựng cầu nối với OpenAI và giải thích lý do tại sao các động lực cơ bản thúc đẩy Anthropic cũng đang thúc đẩy OpenAI. Tuy nhiên, một trở ngại mới nảy sinh trong lý thuyết của chúng tôi: Vì OpenAI là người tiên phong nên họ có thể gặp phải những trở ngại mà các đối thủ như Anthropic chưa gặp phải.

Một trong đó những trở ngại lớn là yêu cầu về phần cứng để huấn luyện GPT-5. Sonnet 3.6 có thể so sánh với GPT-4o, nhưng được phát hành chậm hơn 5 tháng. Chúng ta nên cho rằng GPT-5 ở một cấp độ khác. Mạnh mẽ hơn và lớn hơn. Chi phí suy luận cũng như chi phí đào tạo cũng cao hơn. Có thể tốn tới 500 triệu USD chỉ để thực hiện một buổi đào tạo. Có thể thực hiện được điều gì đó như thế này với phần cứng hiện có không?

Câu trả lời của Ege là có. Phục vụ 300 triệu người là một việc quá sức, nhưng đào tạo thì dễ như ăn bánh:

“Về mặt lý thuyết, ngay cả phần cứng hiện tại của chúng tôi cũng đủ để hỗ trợ các mô hình lớn hơn GPT-4: ví dụ: phiên bản GPT-4 phóng to gấp 50 lần, với khoảng 100 nghìn tỷ tham số, có thể có giá trên một triệu mã thông báo đầu ra. Ở mức 3.000 USD, tốc độ đầu ra là Tuy nhiên, để đạt được điều này, những mô hình lớn này phải mang lại lượng lớn giá trị kinh tế cho khách hàng sử dụng chúng”.

Tuy nhiên, ngay cả Microsoft, Google và Amazon (các nhà đầu tư lần lượt vào OpenAI, DeepMind và Anthropic) cũng không thể biện minh cho chi phí lý luận này. Vậy họ giải quyết vấn đề này như thế nào? Đơn giản: họ chỉ cần "mở khóa giá trị kinh tế lượng lớn" nếu họ có kế hoạch cung cấp các mô hình với hàng nghìn tỷ thông số cho công chúng. Vì vậy họ quyết định không tung ra những mẫu xe đó.

Họ huấn luyện nó. Họ nhận ra rằng nó "hoạt động tốt hơn sản phẩm hiện tại của họ." Nhưng họ phải chấp nhận rằng nó "chưa đủ tiến bộ để bù đắp cho chi phí khổng lồ để duy trì hoạt động". -5 một tháng trước rất giống với những gì Bloomberg đã nói về Opus 3.5).

Họ báo cáo kết quả không được tốt lắm (ít nhiều chính xác, họ luôn có thể chơi đùa với câu chuyện ở đây). Họ giữ nó trong nhà như một mô hình giáo viên lớn để chắt lọc các mô hình học sinh nhỏ hơn. Sau đó, họ phát hành những mô hình nhỏ hơn này. Chúng tôi đã có Sonnet 3.6 và GPT-4o cũng như o1 và rất vui vì chúng rẻ và khá tốt. Ngay cả khi chúng tôi ngày càng trở nên thiếu kiên nhẫn, kỳ vọng của chúng tôi đối với Opus 3.5 và GPT-5 vẫn không thay đổi. Và túi của họ tiếp tục lấp lánh như những mỏ vàng.

5. Microsoft, OpenAI và AGI

Khi tôi đi đến điểm này trong cuộc điều tra của mình, tôi vẫn chưa hoàn toàn bị thuyết phục. Tất nhiên, tất cả bằng chứng đều cho thấy điều này hoàn toàn hợp lý đối với OpenAI, nhưng có một khoảng cách giữa điều gì hợp lý -- hoặc thậm chí có thể xảy ra -- và điều gì là đúng. Tôi sẽ không điền vào chỗ trống cho bạn - suy cho cùng, đây chỉ là suy đoán. Nhưng tôi có thể củng cố lập luận hơn nữa.

Có bằng chứng bổ sung nào cho thấy OpenAI hoạt động theo cách này không? Ngoài hiệu suất kém và lỗ vốn ngày càng tăng, họ còn lý do nào khác để giữ lại GPT-5? Chúng ta có thể suy ra điều gì từ các tuyên bố công khai của các giám đốc điều hành OpenAI về GPT-5? Không phải họ rủi ro danh tiếng của mình bằng cách liên tục trì hoãn việc phát hành mẫu sao? Xét cho cùng, OpenAI là bộ mặt của cuộc cách mạng AI và Anthropic hoạt động dưới cái bóng của nó. Anthropic có thể thực hiện được những động thái này, nhưng còn OpenAI thì sao? Có lẽ điều này không phải là không có chi phí.

Nói về tiền bạc, hãy cùng tìm hiểu một số chi tiết liên quan về mối quan hệ đối tác OpenAI-Microsoft. Đầu tiên là điều ai cũng biết: điều khoản AGI. Trong bài đăng trên blog của OpenAI về cấu trúc của họ, họ có năm thuật ngữ quản trị mô tả cách họ hoạt động, mối quan hệ của họ với các tổ chức phi lợi nhuận, mối quan hệ của họ với ban giám đốc và mối quan hệ của họ với Microsoft. Điều 5 định nghĩa AGI là “các hệ thống có tính tự trị cao, vượt qua con người trong hầu hết các nhiệm vụ có giá trị kinh tế” và quy định rằng một khi hội đồng quản trị OpenAI tuyên bố đã đạt được AGI, “các hệ thống như vậy sẽ bị loại khỏi các giấy phép có IP của Microsoft và các giấy phép khác. các điều khoản chỉ áp dụng cho công nghệ tiền AGI."

Không cần phải nói, cả hai công ty đều không muốn mối quan hệ hợp tác tan vỡ. OpenAI đặt ra điều khoản này nhưng sẽ làm bất cứ điều gì cần thiết để tránh phải tuân thủ nó. Trong đó cách là trì hoãn việc phát hành các hệ thống có thể được đánh dấu AGI. Bạn sẽ nói: "Nhưng GPT-5 chắc chắn không phải là AGI". Và tôi sẽ nói đây là sự thật thứ hai mà hầu như không ai biết: OpenAI và Microsoft có một định nghĩa bí mật về AGI: AGI là một "hệ thống AI có thể tạo ra lợi nhuận ít nhất 100 tỷ USD". quan trọng, nhưng đã cấu trúc mối quan hệ hợp tác của họ về mặt pháp lý.

Nếu OpenAI giả định từ chối GPT-5 với lý do nó "chưa sẵn sàng", thì họ sẽ còn một việc phải làm ngoài việc giảm chi phí và ngăn chặn phản ứng dữ dội của công chúng: họ sẽ tránh tuyên bố liệu nó có đáp ứng các tiêu chí để được phân loại hay không như ngưỡng AGI. Mặc dù lợi nhuận 100 tỷ USD là một con số phi thường, nhưng không có gì có thể ngăn cản những khách hàng đầy tham vọng tạo ra nhiều lợi nhuận hơn nữa. Mặt khác, hãy nói rõ: Nếu OpenAI dự đoán rằng GPT-5 có thể mang lại 100 tỷ USD thu nhập định kỳ hàng năm, thì họ sẽ không ngại kích hoạt điều khoản AGI và chia tay Microsoft.

Hầu hết phản ứng của công chúng về việc OpenAI không phát hành GPT-5 đều dựa trên giả định rằng họ không làm điều đó vì nó không đủ tốt. Ngay cả khi điều này là đúng, chắc chắn OpenAI sẽ có những trường hợp sử dụng nội bộ tốt hơn những gì họ có thể nhận được từ bên ngoài. Có sự khác biệt rất lớn giữa việc tạo ra một mô hình tuyệt vời và tạo ra một mô hình tuyệt vời có thể phục vụ 300 triệu người với chi phí thấp. Nếu bạn không thể làm điều đó, bạn không làm điều đó. Nhưng một lần nữa, nếu bạn không phải làm vậy, bạn sẽ không làm điều đó. Trước đây họ đã cấp cho chúng tôi quyền truy cập vào các mô hình tốt nhất của họ vì họ cần dữ liệu của chúng tôi. Bây giờ không cần thiết lắm. Họ cũng không theo đuổi tiền của chúng tôi. Microsoft muốn tiền chứ không phải họ. Họ muốn AGI, rồi ASI. Họ muốn một di sản.

6. Vị ẩn sĩ già truyền trí tuệ từ hang động

Bài viết sắp kết thúc. Tôi tin rằng tôi đã đưa ra đủ lập luận để xây dựng một trường hợp chắc chắn: OpenAI có thể có GPT-5 chạy nội bộ, giống như Anthropic có Opus 3.5. Cũng có thể OpenAI sẽ không bao giờ phát hành GPT-5. Công chúng bây giờ so sánh hiệu suất với o1/o3, không chỉ GPT-4o hay Claude Sonnet 3.6. Khi OpenAI khám phá các luật mở rộng thử nghiệm, ngưỡng mà GPT-5 cần vượt qua tiếp tục tăng. Làm thế nào họ có thể phát hành một chiếc GPT-5 thực sự vượt qua các mẫu o1, o3 và o sê-ri sắp ra mắt, đặc biệt là khi xem xét tốc độ họ sản xuất những mẫu này? Hơn nữa, họ không còn cần tiền hoặc dữ liệu của chúng tôi nữa.

Việc đào tạo các mô hình cơ sở mới — GPT-5, GPT-6 và hơn thế nữa — sẽ luôn có ý nghĩa trong nội bộ OpenAI, nhưng không nhất thiết phải là một sản phẩm. Điều này có thể kết thúc. Mục tiêu duy nhất quan trọng với họ bây giờ là tiếp tục tạo ra dữ liệu tốt hơn cho thế hệ mô hình tiếp theo. Từ giờ trở đi, mô hình cơ sở có thể chạy ở chế độ nền, cho phép các mô hình khác thực hiện những kỳ công mà họ không thể tự mình thực hiện được—giống như một ẩn sĩ già truyền đạt trí tuệ từ một hang động bí mật , ngoại trừ hang động đó là một trung tâm dữ liệu khổng lồ. Và dù chúng ta có nhìn thấy Ngài hay không, tất cả chúng ta đều sẽ trải nghiệm những hậu quả từ sự khôn ngoan của Ngài.

Ngay cả khi GPT-5 cuối cùng được phát hành, thực tế này đột nhiên dường như gần như không liên quan. Nếu OpenAI và Anthropic thực hiện các hoạt động tự cải thiện đệ quy (mặc dù vẫn trong đó của con người), thì những gì họ tiếp xúc với chúng ta không thành vấn đề. Chúng sẽ di chuyển ngày càng xa hơn - giống như vũ trụ đang giãn nở nhanh đến mức ánh sáng từ các thiên hà xa xôi không thể đến được với chúng ta nữa.

Có lẽ đó là cách OpenAI nhảy từ o1 lên o3 chỉ trong ba tháng và cách họ sẽ nhảy lên o4 và o5. Đó có lẽ là lý do tại sao gần đây họ rất hào hứng trên mạng xã hội. Bởi vì họ đã triển khai một mô hình hoạt động mới và cải tiến hơn.

Bạn có thực sự cho rằng rằng tiến gần hơn đến AGI có nghĩa là bạn luôn có thể sử dụng AI ngày càng mạnh hơn không? Họ sẽ công bố mọi tiến bộ để chúng tôi sử dụng chứ? Tất nhiên, bạn sẽ không tin điều này. Khi họ nói rằng mô hình của họ sẽ đưa họ vượt xa bất kỳ ai đến mức họ không thể bắt kịp, họ thực sự có ý như vậy. Mỗi thế hệ mẫu xe mới là một động cơ có tốc độ thoát. Bắt đầu từ tầng bình lưu, họ đã vẫy tay chào tạm biệt chúng tôi.

Liệu họ có quay trở lại hay không vẫn còn phải chờ xem.

Từ cầu thuật toán

Bài viết này xuất phát từ tài khoản công khai WeChat "Heart of the Machine" , tác giả: Alberto Romero, biên soạn bởi: Heart of the Machine, 36 Krypton phát hành có ủy quyền.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận