Hiệu ứng quy mô thông minh: Giải mã cuộc chiến ranh giới dữ liệu đằng sau ChatGPT Atlas

Bài viết này được dịch máy
Xem bản gốc

OpenAIChatGPT Atlas chắc chắn là một sản phẩm trình duyệt, nhưng nó cũng giống một tín hiệu hơn.

Mọi người vẫn nên nhớ Pichai đã trở thành CEO của Google và bây giờ là Alphabet - lý do cốt lõi chính là sự thành công của Chrome.

Quay trở lại thời điểm đó, chúng ta có thể nói rằng Chrome thực sự đã đóng góp rất lớn vào cuộc cạnh tranh giữa Google và Microsoft. Nó cho phép Google có thiết bị đầu cuối và cổng vào riêng.

Trong bối cảnh của mô hình AI lớn, câu chuyện rõ ràng đang được lặp lại, ngoại trừ việc nhân vật đã bị đảo ngược. OpenAI đã trở thành Google của quá khứ, và Google ngày nay đã trở thành Microsoft của quá khứ.

Đây rõ ràng là sự tiếp nối của cái gọi là cuộc chiến điểm vào trong quá khứ, nhưng có một điều khác đang âm thầm thay đổi. Để hiểu toàn bộ sự thay đổi này, và thậm chí cả những xu hướng tương lai, chúng ta cần bắt đầu với một logic cơ bản mà tôi gọi là "Hiệu ứng Quy mô Trí tuệ". (Có lẽ có thể dịch là "Hiệu ứng Quy mô Trí tuệ", nhưng thực ra tôi đang bịa ra đấy.)

Cơ sở của hiệu ứng này có thể được tóm tắt trong một công thức đơn giản:

Hiệu quả của trí thông minh = mức độ thông minh của mô hình lớn × độ sâu của sự hiểu biết về thế giới thực

Công thức này có thể tiết lộ cốt lõi của sự cạnh tranh trong tương lai trong các ứng dụng thông minh.

Để chiến thắng trong cuộc thi, chỉ sở hữu một mô hình “thông minh hơn” (tức là “mức độ thông minh” cao hơn) là chưa đủ. Người chiến thắng thực sự nằm ở hệ số nhân thứ hai: độ sâu hiểu biết của mô hình về thế giới thực.

Và yếu tố sau trở nên quan trọng hơn theo thời gian, và thậm chí có thể ảnh hưởng đến tốc độ tiến hóa của yếu tố trước.

Để tối đa hóa "hiệu quả" tối ưu, chúng ta sẽ thấy rằng mọi công ty tham gia làn sóng AI sẽ dấn thân vào một cuộc đua điên cuồng và bất tận - cuộc đua mở rộng vô hạn ranh giới dữ liệu của chính mình.

Khi các công ty mô hình nhận ra điều này, tất cả họ sẽ phát triển theo hướng ứng dụng, và nếu họ phát triển theo hướng ứng dụng, hầu hết họ sẽ kết thúc ở đây.

Ở đây, ứng dụng và mô hình không thể tách rời.

Phân tích “Hiệu ứng cân thông minh”

Chúng ta hãy bắt đầu bằng cách phân tích hai thành phần chính của công thức này.

1. Mức độ thông minh của các mô hình lớn

Đây chính là "IQ cơ bản" của AI.

Nó được xác định bởi kiến ​​trúc mô hình, lượng dữ liệu đào tạo, thang đo tham số và tài nguyên tính toán.

Các mô hình lớn hàng đầu, được đại diện bởi sê-ri GPT của OpenAI và sê-ri Claude của Anthropic, đã có được các khả năng chung mạnh mẽ như hiểu ngôn ngữ, suy luận logic, lưu trữ kiến ​​thức và tạo mã thông qua quá trình đào tạo trước trên hàng nghìn tỷ mã thông báo dữ liệu công khai.

Đây chính là "năng lượng tiềm tàng" của AI.

Nó biểu thị chiều cao cao nhất mà mô hình có thể đạt được về mặt lý thuyết.

Trong vài năm qua, chúng ta đã chứng kiến ​​một cuộc chạy đua vũ trang về "mức độ thông minh" - các thông số đã tăng vọt từ hàng tỷ lên hàng nghìn tỷ và khả năng của mô hình tiếp tục vượt xa trí tưởng tượng.

Nhưng hãy nghĩ lại sau, cốt lõi là gì?

Ai có thể có được dữ liệu đầy đủ hơn về các tình huống thực tế?

Chắc hẳn bạn còn nhớ lúc đầu chúng ta nghĩ rằng trí thông minh của mình không thể cải thiện được? Đơn giản là vì chúng ta không có đủ dữ liệu.

Vì vậy, nửa sau của mô hình lớn sẽ quay trở lại dữ liệu.

Đây không phải là dữ liệu lặp lại cùng một bản chất như trong quá khứ, mà là dữ liệu bổ sung thêm những chiều không có trong quá khứ.

(Sẽ dễ hiểu hơn về hiệu ứng quy mô thông minh trong bối cảnh lái xe tự động)

2. Hiểu sâu sắc về thực tế

Đây chính là "trí thông minh tình huống" của AI.

Nếu "mức độ thông minh" là CPU của AI, thì "độ sâu hiểu biết thực tế" là RAM (bộ nhớ) và hệ thống I/O (đầu vào/đầu ra) của nó. Nó thể hiện độ sâu và bề rộng của dữ liệu cụ thể, thời gian thực, sở hữu tư nhân hoặc độc quyền dữ liệu một mô hình có thể truy cập và hiểu khi thực hiện nhiệm vụ cụ thể.

Cho dù một mô hình có thông minh đến đâu, nếu nó không biết gì về công việc mình đang làm, lịch trình cá nhân của bạn hoặc cơ sở kiến ​​thức nội bộ của công ty bạn, thì nó giống như một thiên tài bị nhốt trong một căn phòng bí mật, có trí tuệ nhưng không thể thể hiện ra.

"Độ sâu hiểu biết về thực tế" của nó là số không, dẫn đến "hiệu quả thông minh" cuối cùng cũng tiến gần đến số không.

Hiểu biết cốt lõi của “hiệu ứng quy mô thông minh” là:

Khi "mức độ thông minh" đạt đến một ngưỡng nhất định, yếu tố chính quyết định sự thành công hay thất bại của một ứng dụng sẽ nhanh chóng chuyển từ IQ của chính mô hình sang quy mô " dữ liệu thực" mà nó có thể tận dụng.

Phong trào bao vây dữ liệu

Điều này sẽ dẫn tới đâu?

Điều này sẽ dẫn đến một phong trào đóng gói mới: phong trào đóng gói dữ liệu.

ChatGPTAltlas có thể được coi là lời kêu gọi chính thức, đánh thẳng vào trung tâm của Google.

Nhưng điều này thực sự không bắt đầu ở đây, nó đã diễn ra trong một thời gian dài:

Hiệu suất 1: Từ đám mây đến máy tính để bàn và hệ điều hành – nắm bắt bối cảnh cá nhân

Trường hợp: ChatGPTAltlas của OpenAI và máy tính để bàn của Anthropic

Trên thực tế, không có nhiều điều để nói về điều này, nó chỉ là một tuyến đường tích hợp từ đầu cuối đến đám mây.

Mục tiêu rất đơn giản: giải quyết nút thắt trải nghiệm và thu thập thêm dữ liệu . Nếu không, sẽ không thể giải quyết được điểm yếu cốt lõi là sự mất kết nối giữa AI web và quy trình làm việc của người dùng. AI web không thể "nhìn thấy" các tài liệu hoặc ứng dụng cục bộ, khiến người dùng thường xuyên phải sao chép và dán, dẫn đến hiệu quả thấp.

Hướng đi đã được định sẵn, nên sẽ không có gì ngạc nhiên nếu một ngày nào đó OpenAI sẽ ra mắt một hệ điều hành. (Google đã tạo ra một bản sao của Android và nó thậm chí còn hiệu quả hơn.)

Phương pháp này cũng được thống nhất.

Tất cả những điều này đều được thực hiện thông qua các ứng dụng gốc với quyền cấp hệ thống. Sau khi người dùng xác thực, AI có thể trực tiếp "xem" nội dung màn hình và đọc các tệp cục bộ, từ đó hiểu được toàn bộ ngữ cảnh. Điều này hoàn toàn trái ngược với phiên bản AI "mù" trên web, vốn chỉ giới hạn trong tab trình duyệt.

Sau đây là một kịch bản điển hình: Các nhà thiết kế có thể trực tiếp gọi AI trên máy tính để bàn trong Figma, chỉ vào một thành phần và yêu cầu: "Hãy giúp tôi thay đổi nút này thành kiểu tân skeuomorphic và cung cấp mã CSS". Vì AI "nhìn thấy" được thiết kế tổng thể nên nó có thể đưa ra các gợi ý chính xác, rút ​​ngắn thao tác ứng dụng chéo ban đầu kéo dài 5-10 phút xuống còn 30 giây.

Tất nhiên, tích hợp độ sâu này cũng mang đến những thách thức nghiêm trọng về quyền riêng tư và bảo mật, đòi hỏi người dùng phải đặt niềm tin ở mức độ cao. Chúng ta sẽ thảo luận về vấn đề này sau.

Đây là khởi đầu cho việc AI hiểu bạn hơn cả chính bạn. Bạn không thể nhớ những điều đã xảy ra một năm trước, nhưng về mặt lý thuyết thì có thể.

Biểu diễn 2: Từ tĩnh đến thời gian thực — nắm bắt thế giới năng động

Trường hợp: Perplexity AI (công cụ tìm kiếm AI)

Perplexity AI, được thành lập vào năm 2022 và phát triển nhanh chóng trong khoảng thời gian từ năm 2023 đến năm 2024, đã làm được điều này. Công ty giải quyết được hai vấn đề nan giải chính: kiến ​​thức "lỗi thời" về LLM truyền thống và các công cụ tìm kiếm truyền thống "chỉ cung cấp liên kết chứ không cung cấp câu trả lời".

Vào thời điểm đó, họ còn khá sớm để phát triển toàn bộ kiến ​​trúc "truy xuất thời gian thực + tóm tắt LLM" (RAG).

Khi người dùng đặt câu hỏi, trước tiên nó sẽ thu thập thông tin web mới nhất theo thời gian thực ( mở rộng chiều sâu hiểu biết thực tế) và sau đó đưa thông tin đó vào một mô hình lớn (chẳng hạn như GPT-4) để tạo ra câu trả lời ngay lập tức. Điều này hoàn toàn trái ngược với Google (cung cấp danh sách liên kết) và phiên bản cơ bản của ChatGPT (có kiến ​​thức lỗi thời).

Giờ đây, điều này đã trở thành một chức năng cơ bản. Tương lai của thứ này vẫn chưa chắc chắn, và nó có thể sẽ chết.

Tuy nhiên, đây là một sản phẩm thành công, với việc Perplexity vượt quá 10 triệu người dùng hoạt động hàng tháng (MAU) vào đầu năm 2024. Khi người dùng tìm kiếm "dữ liệu báo cáo tài chính đêm qua", tính kịp thời và tỷ lệ thu hồi vượt xa LLM tĩnh, giúp tiết kiệm đáng kể thời gian lọc.

Hạn chế của nó là chất lượng câu trả lời phụ thuộc vào nguồn và tốn kém gấp đôi.

Hiệu suất 3: Từ công sang sở hữu tư nhân– Làm sâu sắc thêm cơ sở tri thức doanh nghiệp

Nghiên cứu điển hình: Microsoft 365 Copilot

Microsoft đã triển khai Copilot hoàn chỉnh cho nhóm khách hàng doanh nghiệp M365 đông đảo của mình. Giải pháp này nhằm mục đích giải quyết một vấn đề nan giải trong doanh nghiệp: dữ liệu bị cô lập. Kiến thức của nhân viên lắng đọng trên nhiều ứng dụng như Outlook, Teams và SharePoint, gây khó khăn cho việc tích hợp với các công cụ truyền thống.

Trọng tâm tích hợp của Copilot là Microsoft Graph.

Chúng tôi đã đăng bức ảnh sau đây:

Biểu đồ này lập chỉ mục tất cả dữ liệu sở hữu tư nhân của một tổ chức (hình thành nên "sự hiểu biết sâu sắc về thực tế") và kết hợp chúng với trí tuệ nhân tạo tiên tiến của Copilot. Khi một nhân viên đặt câu hỏi (ví dụ: "Tóm tắt tiến độ tuần trước của Dự án A và soạn thảo báo cáo hàng tuần"), Copilot có thể ngay lập tức tìm kiếm email, cuộc trò chuyện và tài liệu để tạo báo cáo chính xác. Mức độ chính xác này vượt trội so với bất kỳ trợ lý AI "công khai" nào hoặc tìm kiếm nội bộ truyền thống.

Nó cũng kết nối điểm cuối và đám mây.

Người dùng được cho là có thể thực hiện nhiệm vụ như tóm tắt cuộc họp nhanh hơn gần bốn lần, tiết kiệm trung bình 1,2 giờ mỗi tuần.

Biểu diễn 4: Từ kỹ thuật số đến vật lý - Sự kết thúc của Internet vạn vật (Triển vọng)

Điểm cuối cùng của mở rộng ranh giới này chắc chắn sẽ là từ thế giới kỹ thuật số đến thế giới vật lý.

Các thiết bị đeo được (như kính thông minh và AI Pin) và thiết bị Internet vạn vật (IoT) là hình thức cuối cùng để mở rộng"hiệu ứng quy mô thông minh".

Đây là lý do tại sao Ultraman luôn hợp tác với những người sản xuất phần cứng.

Hãy tưởng tượng một trợ lý AI có thể "nhìn thấy" những gì bạn đang nhìn qua camera trên kính và "nghe" cuộc trò chuyện của bạn qua micro. Nó sẽ mạnh mẽ đến mức nào? Nó có thể dịch menu cho bạn theo thời gian thực, nhắc bạn nhận ra khách hàng mới, và thậm chí cung cấp hướng dẫn từng bước khi bạn đang sửa chữa thiết bị.

Điều này rõ ràng làm nảy sinh những câu hỏi khác, nhưng thực ra tôi đã từng nghe mọi người tại các sự kiện thảo luận về toàn bộ vấn đề sử dụng micrô để ghi lại các hoạt động hàng ngày của họ rồi sau đó phân tích chúng.

Ít nhất thì bản thân người đó không phản đối, chỉ là những người xung quanh có thể phản đối.

Tại sao cuộc cạnh tranh này lại gay gắt hơn bao giờ hết?

Cuộc cạnh tranh do "hiệu ứng quy mô thông minh" gây ra có thể sẽ gay gắt hơn và có hiệu ứng "kẻ thắng sẽ được tất cả" vượt xa thời đại Internet trên máy tính và Internet di động.

Trong thời đại Internet, cốt lõi của cạnh tranh là "sự chú ý".

Các nền tảng cạnh tranh để giành thời gian sử dụng màn hình của người dùng thông qua nội dung và dịch vụ (như tìm kiếm, mạng xã hội và video). Mặc dù hiệu ứng mạng tồn tại, nhưng "chi phí chuyển đổi" của người dùng tương đối dễ quản lý—hôm nay tôi có thể dùng Google, ngày mai chuyển sang Bing; tôi có thể đăng bài trên WeChat và trò chuyện trên Weibo.

Vào thời điểm này, nhiều thứ có bản chất hoàn toàn khác biệt: tìm kiếm, IM, v.v., đang chạy song song và mỗi thứ đều có hiệu ứng mạng riêng.

Nhưng trong thời đại thông minh, cốt lõi của cạnh tranh đã chuyển sang "bối cảnh", tức là "chiều sâu hiểu biết về thực tế" trong công thức của chúng ta.

Đây là một sự khác biệt cơ bản.

Kết hợp với tính linh hoạt thông minh của các mô hình lớn, tác động của sự khác biệt thiết yếu này sẽ được khuếch đại lên mức chưa từng có.

Khi một ứng dụng AI được nhúng độ sâu thành công vào quy trình làm việc cá nhân hoặc doanh nghiệp của bạn - nó hiểu tất cả các tệp cục bộ của bạn (chẳng hạn như máy tính để bàn XX), nắm vững toàn bộ cơ sở kiến ​​thức sở hữu tư nhân của công ty bạn (chẳng hạn như Copilot) hoặc được kết nối với thế giới vật lý thời gian thực của bạn (chẳng hạn như kính thông minh trong tương lai) - "độ sâu hiểu biết về thực tế" mà nó tích lũy được sẽ tạo thành một hệ thống bảo vệ vô song.

Sự cạnh tranh giữa tìm kiếm và IM là sự cạnh tranh yếu, trong khi sự cạnh tranh trên là sự cạnh tranh giữa tìm kiếm và tìm kiếm, đó là sự cạnh tranh mạnh.

Do đó, AI càng được ứng dụng nhiều trong tương lai thì sẽ càng nhiều: hàng ngàn làn sóng sản phẩm mềm và cứng, và anh hùng khắp nơi trỗi dậy từ làn khói chiến tranh.

Trước đây, thứ thực sự có độ kết dính cao chính là hiệu ứng mạng lưới.

Việc thay đổi hệ điều hành và WeChat rất khó khăn, nhưng những thứ khác thì thực sự không có vấn đề gì khi thay đổi.

Cho dù bạn mua hàng trên JD.com hay Tmall, độ bám dính là gì?

Nhưng sau đó có thể có một loại khác: tơ nhện vô hình có độ dính cao:

Bạn không thể dễ dàng xuất và nhập những hiểu biết độ sâu về thói quen cá nhân và dữ liệu sở hữu tư nhân được tích lũy trong một trợ lý AI này sang một trợ lý AI khác. Chi phí thay thế một trợ lý AI có thể tương đương với việc đào tạo một nhân viên mới từ đầu trong thời gian dài.

Cốt lõi của một doanh nghiệp là kiến ​​thức. Khi áp dụng mô hình trên, việc thay đổi sản phẩm tương đương với việc thay thế một nhóm nhân viên và bắt đầu lại từ đầu với tất cả kiến ​​thức.

Với bản chất vô hạn của trí tuệ tổng quát, cuộc cạnh tranh giữa các công ty kỹ thuật số lớn cuối cùng sẽ trở thành một trò chơi tổng bằng không. Người dùng (dù là cá nhân hay doanh nghiệp) cuối cùng có thể sẽ chọn một "AI chủ" duy nhất và tối đa hóa ranh giới dữ liệu của nó. Điều này đã dẫn đến sự cạnh tranh ngày càng gay gắt chưa từng có:

Bất kỳ ai chiếm được nguồn dữ liệu cốt lõi của người dùng trước tiên sẽ gần như giành được chiến thắng.

(Nhắc mới nhớ, tôi đã viết về chủ đề này cách đây 7-8 năm, hơi sớm một chút)

"Trò chơi lớn" của hiệu quả và niềm tin

Có một biến số khác ở đây, đó là tỷ trọng của người dùng.

Thật buồn cười khi WeChat nói với mở rộng của mình rằng mặc dù người dùng nhìn chung là quan trọng nhất, nhưng thực tế thì cá nhân lại là người ít quan trọng nhất.

Lấy ví dụ về các phong bao lì xì và các thao tác thực hiện, chúng gần giống như việc cắt tỏi tây.

Mở rộng ranh giới dữ liệu do "hiệu ứng quy mô thông minh" mang đến một thách thức mới: quyền riêng tư và sự tin cậy.

Khi AI điên cuồng mở rộng ranh giới dữ liệu để "hiểu bạn hơn", nó chắc chắn sẽ chạm đến ranh giới quyền riêng tư của người dùng.

● Bạn có sẵn sàng để AI đọc tất cả các tệp cục bộ của bạn chỉ để cung cấp cho bạn những gợi ý tốt hơn khi viết báo cáo không?

● Bạn có sẵn sàng để AI phân tích tất cả các bản ghi trò chuyện của bạn chỉ để dự đoán nhu cầu của bạn chính xác hơn không?

● Các công ty có sẵn sàng giao nộp những bí mật kinh doanh cốt lõi nhất của mình cho một hệ thống AI chỉ để đổi lấy hiệu quả hoạt động cao hơn không?

Đây chính là mâu thuẫn cốt lõi của tương lai: mong muốn về “hiệu quả” của người dùng là vô hạn, nhưng mối lo ngại của họ về “quyền riêng tư” cũng là có thật.

Quyền riêng tư có thể bảo vệ hiệu suất không?

Do đó, nửa sau của cuộc thi này không chỉ là về việc ai có thể thu thập được nhiều dữ liệu hơn mà còn về việc ai có thể xử lý dữ liệu này theo cách đáng tin cậy và an toàn hơn.

bản tóm tắt

Nếu phải lựa chọn, tôi sẽ chọn "hiệu ứng quy mô thông minh" (hiệu quả thông minh = mức độ thông minh của mô hình lớn × độ sâu hiểu biết thực tế) làm nguyên lý ứng dụng đầu tiên trong kỷ nguyên AI.

Nó nêu rõ rằng tương lai của AI không nằm ở việc xây dựng một "Chúa kỹ thuật số" toàn năng mà nằm ở việc xây dựng vô số trợ lý chuyên nghiệp "gắn bó độ sâu" với thực tế.

ChatGPTAltlas của OpenAI chỉ là sự khởi đầu của cuộc thi lớn này.

Chiến trường thực sự nằm ở sự theo đuổi không ngừng nghỉ "sự hiểu biết sâu sắc về thực tế".

Cá nhân tôi hy vọng rằng người chiến thắng cuối cùng sẽ là người không chỉ có thể tối đa hóa sản phẩm của công thức này mà còn giành được sự tin tưởng tuyệt đối của người dùng trong quá trình này.

Bài viết này trích từ tài khoản công khai WeChat "Zhuo Mu Shi" , tác giả: Li Zhiyong, được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận