Câu chuyện hậu trường về sự thất bại của GPT-5.2 đã được hé lộ: Đội ngũ kỹ thuật không hề sai lầm, nhưng người dùng lại trở thành nạn nhân lớn nhất.

avatar
36kr
12-19
Bài viết này được dịch máy
Xem bản gốc

Lễ kỷ niệm 10 năm thành lập OpenAI diễn ra không mấy trang trọng.

GPT-5.2, được phát hành cùng ngày, đã thể hiện hiệu năng hoàn hảo: nó vượt qua nhiều bài kiểm tra chuẩn mực tiên tiến nhất, và hiệu suất của nó trong các kịch bản cạnh tranh như toán học và lập trình là xuất sắc. Nó cũng được chính thức mô tả là một "siêu não" AI.

Nhưng khi được lan truyền trên mạng xã hội, nó không nhận được sự tán thưởng mà thay vào đó là một loạt những lời chỉ trích gay gắt từ người dùng.

Trên X và Reddit, sự tức giận và thất vọng được thể hiện trong hầu hết các bình luận. Mọi người một lần nữa nhớ đến GPT-40 "ánh trăng trắng" một thời: một số người nói rằng GPT-5.2 đã trở nên nhạt nhẽo, nhàm chán và như thể các cạnh của nó đã bị làm mềm đi; những người khác chế giễu nó như một thông điệp giáo điều "đối xử với người lớn như trẻ mẫu giáo".

Khi dư luận quay lưng lại với OpenAI và CEO Sam Altman, một câu hỏi hóc búa đã được đặt ra: Tại sao người dùng lại ít yêu thích các mô hình này hơn khi chúng được cho là "thông minh hơn"?

Tại sao các mẫu điện thoại "thông minh" không còn được ưa chuộng nữa?

Bản tin mới nhất của tờ The Information sáng sớm nay đã hé lộ câu chuyện nội bộ.

Trong năm qua, OpenAI đã tuân thủ một nguyên tắc vàng: mỗi bước tiến vượt bậc về mô hình đều đi kèm với tăng trưởng bùng nổ về số lượng người dùng, bởi vì trải nghiệm nâng cấp nhờ "trở nên thông minh hơn" là điều hiển nhiên ngay lập tức. Nhưng giờ đây, nguyên tắc vàng này đã bị phá vỡ.

Dĩ nhiên, những cải tiến của mô hình trong lĩnh vực tính toán thông minh và khoa học vẫn rất đáng kể. Đội ngũ nghiên cứu đã dành nhiều tháng để tinh chỉnh khả năng suy luận của nó, cho phép nó giải quyết các vấn đề toán học và khoa học phức tạp hơn, nhưng đối với hầu hết người dùng thông thường, sự cải tiến này là không đáng kể.

https://www.theinformation.com/articles/openais-organizational-problems-hurt-chatgpt?rc=qmzset

Nói cách khác, những cải tiến về trí tuệ nhân tạo không nhất thiết đồng nghĩa với những cải tiến về trải nghiệm.

Người dùng thông thường hiếm khi cần một "bộ não cấp độ thi đấu"; họ cần một "trợ lý hữu ích cho các công việc hàng ngày". Phân tích quy mô lớn của OpenAI về 1,5 triệu lần đã chứng thực nhận định này, cho thấy nhu cầu cốt lõi của người dùng cực kỳ thiết thực: hướng dẫn thực tế (29%), tìm kiếm thông tin (24%) và viết (24%), trong khi các cuộc hội thoại liên quan đến nhiệm vụ lập trình chỉ chiếm 4,2%.

Mâu thuẫn trở nên rất rõ ràng: trong khi đội ngũ kỹ thuật đang miệt mài nghiên cứu toán học, vật lý, hóa học và các bài kiểm tra hiệu năng trong phòng thí nghiệm, người dùng chỉ muốn một câu duy nhất để giải quyết vấn đề của họ trong hộp trò chuyện—không vòng vo, không giảng giải, không kéo dài lê thê.

Việc dàn trải quá mức các chiến tuyến là một nhược điểm lớn.

Trong phần lớn thời gian của năm nay, Ultraman đã đồng thời triển khai nhiều dự án mới: ứng dụng tạo video Sora, trí tuệ nhân tạo âm nhạc, trình duyệt, tác nhân trí tuệ nhân tạo, thiết bị phần cứng, robot... Phạm vi kinh doanh đang mở rộng và nguồn lực đang bị phân tán.

Đây thực chất là một sai lầm kinh điển rất phổ biến trong giới các ông lớn công nghệ: vội vàng mở rộng sang các mặt trận thứ hai và thứ ba trước khi củng cố vị thế cốt lõi. Trong ngắn hạn, điều này có vẻ như là "quảng bá thương hiệu", nhưng về lâu dài, nó giống như tham lam quá mức – một tội lỗi chết người trong chiến tranh – mỗi mặt trận đều thiếu nhân lực, tỷ lệ băm và sự kiên nhẫn để hoàn thiện sản phẩm.

Cuộc giằng co nội bộ giữa "ưu tiên nghiên cứu" và "tăng trưởng sản phẩm" tại OpenAI thể hiện rõ nhất trong lĩnh vực tạo ảnh:

Mặc dù đồ họa theo phong cách Ghibli của GPT-4o đã giúp thúc đẩy việc sử dụng và tăng trưởng người dùng của ChatGPT trong một thời gian ngắn vào tháng 3, nhưng ban đầu OpenAI ưu tiên phát triển mô hình xử lý hình ảnh. Sau khi Nano Banana nhận được phản hồi tích cực, OpenAI đã khẩn trương xem xét lại dự án, dẫn đến những bất đồng nội bộ.

Altman tin rằng mô hình hình ảnh là chìa khóa để tăng trưởng người dùng, trong khi giám đốc nghiên cứu Mark Chen lại muốn đầu tư nguồn lực vào các dự án khác.

Ngoài ra, khi lợi ích cận biên của các định luật mở rộng quy mô giảm dần, để vượt qua nút thắt cổ chai của các mô hình lớn, OpenAI đã đặt cược vào các mô hình suy luận trong năm qua, với một đội ngũ nghiên cứu hơn 1.000 người tập trung nguồn lực vào lĩnh vực này, dẫn đến việc tối ưu hóa bị xem nhẹ trong trải nghiệm hàng ngày của ChatGPT.

Cách tiếp cận này không chỉ phân tán nguồn lực mà còn dẫn đến suy giảm hiệu năng trong giai đoạn thử nghiệm beta những năm đầu – việc theo đuổi thích ứng với các kịch bản "trò chuyện" thực sự làm suy yếu tính thuần túy của mô hình suy luận. Mặc dù "Chế độ tư duy" và "Nghiên cứu chuyên sâu" sau đó đã được giới thiệu để chuyển hướng lưu lượng truy cập và khắc phục tình trạng này, nhưng tỷ lệ người dùng chấp nhận rất thấp, và kết quả là trải nghiệm trò chuyện hàng ngày thực tế không trở nên hấp dẫn hơn.

Ngoài ra, các vấn đề về khả năng tương thích thường phát sinh giữa các mẫu cũ và mẫu mới.

Ví dụ, trước khi phát hành GPT-5, các nhà nghiên cứu nhận thấy rằng mô hình hoạt động kém hơn trong một số nhiệm vụ lập trình sau khi tích hợp vào ChatGPT—bởi vì hệ thống điều chỉnh câu trả lời dựa trên thông tin cá nhân hóa như nghề nghiệp của người dùng, điều này lại gây cản trở khả năng hiểu của mô hình và dẫn đến câu trả lời không chính xác.

Phải thừa nhận rằng các mô hình suy luận ngày càng mạnh mẽ hơn, nhưng trải nghiệm với ChatGPT lại ngày càng tệ hơn.

Khi hướng đi của tiến bộ công nghệ và hướng đi của nhu cầu người dùng bắt đầu fork, ai sẽ là người nhượng bộ trước? Câu trả lời rất rõ ràng.

Sự ra mắt mạnh mẽ của Gemini 3 Pro cuối cùng đã dồn OpenAI vào thế khó, dẫn đến cảnh tượng kinh điển khi Ultraman đưa ra "báo động đỏ", yêu cầu các nhân viên của OpenAI tập trung lại vào ChatGPT và nâng cao trải nghiệm của sản phẩm.

Đồng thời, Fidji Simo, người đứng đầu bộ phận ứng dụng tại OpenAI, cũng đã trình bày chi tiết hơn về viễn cảnh mong đợi của ChatGPT trên blog cá nhân của mình, đó là chuyển từ một hệ thống hội thoại chủ yếu dựa trên văn bản sang một giao diện người dùng hoàn toàn có khả năng tạo ra giao diện một cách năng động dựa trên ý định của người dùng.

Simo cũng thừa nhận rằng công ty về cơ bản vẫn tập trung vào nghiên cứu, và "sản phẩm tự thân không phải là mục tiêu cuối cùng".

Fiji Simo

Từ góc độ kinh doanh, tuyên bố này thực sự khá nguy hiểm.

Không giống như Anthropic, công ty tập trung nhiều hơn vào thị trường API, thu nhập chính của OpenAI đến từ các gói đăng ký cá nhân. Trong thị trường tiêu dùng, không ai sẽ trả tiền cho "lý tưởng tối thượng" của một công ty; người dùng chỉ sẵn sàng trả tiền cho trải nghiệm tức thì. Điều này giống như một đầu bếp nhà hàng bị ám ảnh bởi việc phát triển các món ăn đạt sao Michelin, trong khi thực khách ở sảnh chỉ muốn một bát mì nóng hổi.

Tuy nhiên, nếu bạn kết luận rằng OpenAI đang trong tình trạng hỗn loạn vì điều này, bạn có thể đang đánh giá thấp khả năng phục hồi của công ty.

Theo Mark Chen, được Bloomberg trích dẫn, "báo động đỏ" không phải là một khái niệm mới, mà là một công cụ quản lý thường quy trong các tình huống thời chiến. Cơ chế này được kích hoạt bất cứ khi nào OpenAI cần tập trung nỗ lực vào một mục tiêu duy nhất hoặc yêu cầu đội ngũ phải tạm gác lại nhiệm vụ có mức độ ưu tiên thấp hơn.

Liên kết podcast: https://x.com/Kantrowitz/status/2001790090641645940

Trong podcast mới nhất của mình, Ultraman cũng phủ nhận sự lo lắng thái quá do việc phát tín hiệu báo động đỏ gây ra.

"Trước hết, theo quan điểm của chúng tôi, cái gọi là 'báo động đỏ' là một biện pháp ứng phó rủi ro thấp nhưng hoàn toàn cần thiết," Altman thừa nhận. "Việc hơi 'đa nghi' và phản ứng nhanh chóng khi các mối đe dọa cạnh tranh tiềm tàng xuất hiện là điều tốt."

Ông thậm chí còn đề cập đến sự trỗi dậy của DeepSeek vào đầu năm nay, cho rằng nó, giống như Gemini 3 hiện tại, là một loại tác động tích cực từ bên ngoài.

"Cho đến nay, Gemini 3 chưa gây ra tác động tàn phá như chúng tôi lo ngại ban đầu. Mặc dù, giống như DeepSeek, nó đã đánh trúng điểm yếu trong chiến lược sản phẩm của chúng tôi, nhưng nó cũng sụp đổ chúng tôi phải điều chỉnh cực kỳ nhanh chóng."

Theo Altman, tình trạng khẩn cấp này thường chỉ kéo dài từ sáu đến tám tuần. "Tôi rất vui vì chúng ta có cơ chế phản ứng nhanh này; chúng ta sẽ không ở trong tình trạng này quá lâu."

OpenAI hiểu rõ rằng chỉ khẩu hiệu thôi là chưa đủ, và hôm nay họ đã chính thức phát hành GPT-5.2-Codex.

Là một mô hình lập trình tác nhân thông minh được thiết kế để giải quyết các vấn đề kỹ thuật phần mềm phức tạp trong thế giới thực, GPT-5.2-Codex tích hợp các khả năng vận hành thiết bị đầu cuối của GPT-5.1-Codex-Max trên cơ sở trí tuệ tổng quát, giúp nó phù hợp hơn trong việc xử lý nhiệm vụ dài hạn như tái cấu trúc và di chuyển mã.

Cũng ở cuối podcast, khi người dẫn chương trình hỏi, "Còn bao lâu nữa thì đến GPT-6?", Altman thẳng thắn trả lời, "Tôi không biết khi nào chúng ta sẽ chính thức đặt tên cho một mẫu là GPT-6, nhưng tôi hy vọng một mẫu mới với những cải tiến đáng kể so với phiên bản 5.2 sẽ được phát hành vào quý đầu tiên của năm tới."

Từ việc phát đi "báo động đỏ" đến cuộc phản công của sê-ri GPT-5.2, và sau đó là thông báo không rõ ràng về GPT-6, OpenAI đang cố gắng xây dựng lại niềm tin bằng các mô hình mới và tốc độ mới. Tuy nhiên, điều quyết định kết quả lâu dài vẫn là những rào cản khó khăn như khả năng tiếp cận phân phối, hợp tác hệ sinh thái và chi phí tỷ lệ băm.

Chiến lược công khai của Google và chiêu trò "thành phố trống rỗng" trị giá 830 tỷ đô la của Ultraman.

Lợi thế của Google chưa bao giờ chỉ giới hạn ở mẫu Gemini 3 Pro; mà nằm ở hệ thống kênh phân phối gần như vô song của họ.

Tìm kiếm, Chrome, bộ ứng dụng văn phòng. Trong lĩnh vực trí tuệ nhân tạo, hệ thống bảo vệ có lẽ là nông nhất trong tất cả các sản phẩm công nghệ. Chi phí chuyển đổi đối với người dùng gần như bằng không. Khi các sản phẩm AI của Google phổ biến như không khí, nó trở thành một chiến lược mở, gần như không thể giải quyết được — bạn không cần phải được "thuyết phục", bạn chỉ đơn giản là "sử dụng nó mà không do dự".

Quan trọng hơn, trong cuộc cạnh tranh với Google, điểm yếu lớn nhất của OpenAI nằm ở những hạn chế về phần cứng.

So với lợi thế về hiệu quả mà Google đã thiết lập bằng cách phát triển các chip AI chuyên dụng (TPU) cách đây mười hai năm, OpenAI vẫn phải chi hàng tỷ đô la mỗi năm để thuê tỷ lệ băm. Ngay cả khi cố gắng "bắt kịp" bằng cách xây dựng các trung tâm dữ liệu và chip riêng, thực tế vẫn là trải nghiệm đang bị tụt hậu trong khi chi phí ngày càng tăng cao.

Theo lời cư dân mạng:

OpenAI hiện không cần một mô hình mạnh hơn; nó cần AMD. Nếu OpenAI mua lại AMD, cuộc chiến AI này sẽ kết thúc. Google không sợ OpenAI vì nó có TPU riêng. Nhưng điều mà Google thực sự nên lo lắng là OpenAI sở hữu AMD.

Trong một video gần đây, Chủ tịch OpenAI, Greg Brockman, thừa nhận rằng do tỷ lệ băm hạn chế, mỗi khi một tính năng mới ra mắt(chẳng hạn như tính năng kiểu Ghibli của GPT-4o vào đầu năm), tỷ lệ băm phải được chuyển từ bộ phận nghiên cứu sang bộ phận sản phẩm. Đây là một vòng luẩn quẩn – để duy trì trải nghiệm người dùng hiện tại, sự phát triển công nghệ của tương lai buộc phải bị trì hoãn.

Nhưng xét cho cùng, sức mạnh tính toán chỉ gói gọn trong hai từ: đốt tiền. Và đốt tiền trên quy mô khổng lồ.

Theo tờ WSJ, OpenAI dự định khởi động vòng gọi vốn khổng lồ trị giá 100 tỷ đô la; nếu mọi việc suôn sẻ, siêu kỳ lân này sẽ một lần nữa khơi dậy trí tưởng tượng của thị trường vốn với mức định giá 830 tỷ đô la vào quý 1 năm sau.

Đầu năm nay, SoftBank đã đồng ý đầu tư 30 tỷ USD vào OpenAI và tháng trước đã bán cổ phần Nvidia trị giá 5,8 tỷ USD để huy động vốn cho khoản đầu tư này, với số tiền còn lại là 22,5 tỷ USD dự kiến ​​sẽ được hoàn tất trong thời gian sớm nhất.

Nhưng vấn đề tiền bạc không đơn giản như vậy. Dự kiến ​​OpenAI sẽ tiêu tốn hơn 200 tỷ đô la vào năm 2030. Ngược lại, Google có tình hình tài chính vững mạnh và thậm chí có thể gián tiếp gây áp lực lên triển vọng huy động vốn của OpenAI thông qua biến động giá cổ phiếu của các đối tác như Oracle.

OpenAI, đang huy động vốn khắp nơi, dường như đang chạy đua với thời gian. Điều này dẫn đến câu nói đùa: với khả năng gây quỹ của Ultraman, một ngày nào đó anh ta có thể "đánh bại" cả Google và Nvidia.

Nhưng thôi không nói đùa nữa, tiền có thể mua được thời gian, nhưng không thể mua được danh tiếng tốt.

Vì vậy, vào mùa đông năm 2025, sau ba năm tăng trưởng nhanh chóng, OpenAI đã đúng khi quyết định giảm tốc: củng cố nỗ lực, rút ​​bớt nguồn lực và tập trung lại vào trải nghiệm hàng ngày của ChatGPT.

Đây là một sự điều chỉnh tốn kém nhưng cần thiết.

Sự dẫn đầu về công nghệ không đồng nghĩa với một sản phẩm thân thiện với người dùng, và việc đứng đầu trong các bài kiểm tra hiệu năng không đảm bảo sự hài lòng của người dùng. Quan trọng hơn, bạn không thể chỉ chờ đến khi người dùng hoài niệm về các phiên bản cũ hơn mới hỏi về trải nghiệm của họ.

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , tác giả: APPSO, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận