Thí nghiệm AI của Lý Chí Phi: Một người tạo ra Phi Thư trong thời đại AI trong hai ngày và lấy lại niềm tin vào AGI

06-27

Bài viết này được dịch máy

Xem bản gốc

Thực hành cá nhân của các ông chủ công ty niêm yết cho thấy trước cách làm việc trong tương lai.

Là ông chủ của một công ty niêm yết, nhà sáng lập kiêm giám đốc điều hành Mobvoi Li Zhifei đã không đích thân giải thích về sản phẩm tại hội nghị ra mắt sản phẩm mới gần đây. Thay vào đó, ông đã chia sẻ một "nghệ thuật trình diễn" cá nhân - một thử nghiệm trong "công ty một người".

Anh ấy đặt ra cho mình một mục tiêu có vẻ không thực tế: sử dụng các công cụ AI để phát triển một "Feishu" được thiết kế riêng cho các tổ chức AI chỉ trong vài ngày.

Là một người thực hành làn sóng AI cuối cùng, ông luôn đi đầu. Năm 2012, ông rời vị trí nhà khoa học tại Google và trở về Trung Quốc để thành lập Mobvoi, quyết tâm "định nghĩa lại tương tác giữa người và máy tính bằng AI+giọng nói", từ trợ lý giọng nói, phần cứng thông minh đến AIGC. Khi làn sóng AGI này xuất hiện, lúc đầu ông cũng rất hào hứng tham gia tích cực, nhưng sớm nhận ra rằng đây có vẻ là một trò chơi giữa những gã khổng lồ, và các công ty vừa và nhỏ khó có thể tạo ra nhiều giá trị. Ông cảm thấy bối rối và thậm chí thất vọng trong một thời gian.

Tuy nhiên, anh đã sử dụng các công cụ lập trình AI để biến mình thành "công ty một người" để thực hành và trải nghiệm. Trong quá trình thực hành, anh đã gặp phải nhiều vấn đề thực tế, nhưng chính những chi tiết và trải nghiệm này đã khiến anh lấy lại niềm tin vào AGI.

Anh đột nhiên phát hiện ra rằng mọi "ma sát" trong thế giới trước và mọi trở ngại trong việc xây dựng những thứ phức tạp dường như đã biến mất.

Cảm giác tự do và phấn khích khi nhìn thấy hy vọng khi tiến về phía trước cùng AI đã được thể hiện trong bài phát biểu trực tiếp của ông.

Sau đây là nội dung bài phát biểu của Lý Chí Phi tại buổi họp báo, được Geek Park biên tập để bạn đọc dễ dàng:

Gần đây tôi đã đầu tư lượng lớn thời gian vào lĩnh vực AI và đã tự mình triển khai nhiều dự án cụ thể. Kết quả là tôi có được sự hiểu biết và hiểu biết mới về các mô hình lớn và AGI. Hôm nay, tôi muốn chia sẻ với các bạn những câu hỏi mà tôi đã suy nghĩ và một số cảm xúc của tôi trong suốt thời gian này.

Trước hết, chúng ta nên thực hiện AI như thế nào?

Tôi có một phương châm ở đây: "Sử dụng AI của AI để thực hiện AI."

Nghe có vẻ hơi khó hiểu. Nói một cách đơn giản, "AI" đầu tiên ám chỉ mô hình lớn; "AI" thứ hai ám chỉ Coding Agent, bản thân nó cũng có thể tạo ra bởi AI, hoặc khả năng chính của nó đến từ AI; "AI" cuối cùng là ứng dụng mà chúng ta muốn tự tạo ra.

Tôi cho rằng đây có thể trở thành một mô hình mới cho phát triển phần mềm và tôi sẽ giải thích chi tiết sau.

Mô hình phát triển phần mềm mới | Nguồn hình ảnh: Mobvoi

Một người, hai ngày, tạo ra Feishu cho thời đại AI

Cách đây một thời gian, tôi đã nảy ra một ý tưởng táo bạo: tạo ra một nền tảng cộng tác mới theo phong cách "Feishu" dành cho các tổ chức ứng dụng AI.

Có rất nhiều công ty kỳ lân ở Thung lũng Silicon tại Hoa Kỳ, đội ngũ một hoặc hai người có thể được định giá hàng trăm triệu đô la. Ngoài ra còn có nhiều bản tin đề cập rằng AI sẽ thay thế lượng lớn công việc.

Vì vậy, tôi bắt đầu nghĩ, với tư cách là một tổ chức doanh nghiệp, tôi khó có thể thực hiện công việc của mình nếu không có các công cụ như Feishu, DingTalk và Enterprise WeChat mà chúng tôi thường sử dụng ở Trung Quốc.

Trong các doanh nghiệp truyền thống lấy con người làm trọng tâm, chúng ta phụ thuộc rất nhiều vào các công cụ như Feishu, DingTalk và WeChat for Work, giúp truyền tải thông tin nhanh chóng và cộng tác hiệu quả.

Trong các doanh nghiệp truyền thống, năng suất hoặc loại hình công việc chính gần như là 100% con người. Do đó, luồng thông tin và sự cộng tác trong quá khứ đều xoay quanh con người.

Nhưng khi 8 trong số 10 công việc trong một tổ chức được thực hiện bởi AI, chỉ còn lại 2 nhân vật của con người, thì các công cụ cộng tác hiện tại sẽ không thể thích ứng được.

Vậy, các tổ chức mới sẽ sử dụng những công cụ nào?

Do đó, tôi hy vọng có thể phát triển một sản phẩm cho phép các tác nhân AI và AI và con người có thể dễ dàng thực hiện các cuộc trò chuyện nhóm, trò chuyện riêng tư, câu hỏi và trả lời cơ sở kiến thức và cộng tác nhiệm vụ. Tôi cũng mong muốn xác minh thông qua dự án này liệu tôi có thể trở thành một "siêu cá nhân" hay "kỳ lân cá nhân" thực sự hay không.

Tiếp theo là cách thực hiện.

Thông thường, việc phát triển phần mềm như Feishu và DingTalk cực kỳ phức tạp. Trước đây, để tạo ra những sản phẩm như vậy, thường cần nhiều loại công việc, chẳng hạn như quản lý sản phẩm, nhà thiết kế, front-end, back-end, người kiểm tra và kỹ sư thuật toán. Mỗi loại công việc cũng có thể có một người phụ trách, chẳng hạn như người phụ trách front-end, người phụ trách thuật toán và người phụ trách sản phẩm. Thông thường, một nhóm sẽ sớm có 20 người. Không phải tất cả 20 người này đều làm việc toàn thời gian, nhưng họ có thể mất một tháng để tạo ra một nguyên mẫu.

Trong thời đại AI, điều này thực sự quá chậm.

Khi tôi hoàn thành nó, có lẽ đội ngũ khởi nghiệp liên quan đã trở thành kỳ lân AI rồi.

Vì vậy, tôi quyết định từ bỏ mô hình cũ, tự mình làm, và cố gắng dựa hoàn toàn vào AI để hoàn thành công việc. Lúc đó là đêm trước Tết Đoan Ngọ, vì vậy tôi quyết định đắm mình vào công việc này. Lúc đó có ba ngày nghỉ, và tôi tự hỏi liệu mình có thể sử dụng ba ngày này để làm việc này không. Bởi vì chỉ có như vậy thì sẽ không có ai làm phiền tôi.

Vì vậy, tôi bắt đầu công việc này.

Tôi làm việc một mình trong hai ngày liên tiếp cho đến khoảng 1 giờ sáng mỗi ngày và cuối cùng đã hoàn thành nguyên mẫu của sản phẩm này vào lúc 11:30 tối ngày 1 tháng 6. Nó có các chức năng cốt lõi như đăng nhập, trò chuyện riêng tư, trò chuyện nhóm, tải tệp lên, chuyển tiếp tin nhắn và trả lời.

Sau khi đăng nhập, bạn có thể chọn trò chuyện riêng tư và gửi tin nhắn. Ví dụ, chúng ta có thể hỏi người quản lý sản phẩm xem nhân vật này có thể làm talk show không. Nếu không thể, chúng ta có thể điều chỉnh nhân vật một cách năng động và thêm một kỹ năng, AI sẽ tự động tạo lại lời nhắc.

Chúng tôi đã hỏi anh ấy sau đó và giờ anh ấy đã biết. Anh ấy cũng có thể tải lên các tệp (mặc dù nội dung của các tệp không thực sự được đọc tại thời điểm đó) và có thể chuyển tiếp và trả lời các tin nhắn cụ thể. Hãy nhớ rằng, có một AI đằng sau nó, không phải là một người thực sự. Nó có thể trả lời và chuyển tiếp dựa trên các tin nhắn bạn gửi.

Khi chuyển tiếp, bạn có thể thấy hiệu ứng hiển thị rất phức tạp, tương tự như WeChat, vì thông tin khác được nhúng vào chuyển tiếp. Đây là trò chuyện nhóm và bạn cũng có thể @ những người cụ thể. Tương tự như vậy, bạn có thể chuyển tiếp, trả lời, thêm tệp đính kèm và thậm chí chuyển sang tiếng Trung.

Xin hãy cho một tràng pháo tay trong hai ngày!

Trong hai ngày, tôi đã hoàn thành một hệ thống có cơ sở dữ liệu, front-end, back-end và thuật toán AI. AI có thể tự động trả lời các câu hỏi và khi bạn sửa đổi trang cấu hình nhân vật, lời nhắc của nó sẽ tự động được tạo lại và các kỹ năng sẽ được hiển thị ngay lập tức.

Thành thật mà nói, tôi gần như bỏ cuộc sau khi làm việc trong nửa ngày lúc đầu vì tôi không thể giải quyết vấn đề cơ sở dữ liệu và liên tục gặp phải các lỗi Key khác nhau. Lập trình AI hiện tại có những vấn đề như vậy. Nhưng cuối cùng tôi đã hoàn thành nó trong hai ngày.

Sau đó tôi nghĩ về cách quảng bá sản phẩm này.

Trước đây, công ty chúng tôi sẽ có các kỹ sư chuyên trách để xây dựng trang web này và bộ phận tiếp thị sẽ có một nhóm người để xác định các điểm nổi bật của sản phẩm. Có thể cần năm hoặc sáu người một tuần để xây dựng một trang web.

Nhưng lần tôi quyết định đi theo hướng AI gốc. Vì AI biết tất cả các mã, nó cũng biết tất cả các ý tưởng và tính năng sản phẩm của tôi, vì vậy tôi đã yêu cầu AI xây dựng một trang web.

Trang web chính thức của sản phẩm này được xây dựng bằng AI | Nguồn: Mobvoi

Vì vậy, tôi đã để AI xây dựng một trang web với các điểm nổi bật của sản phẩm và các tính năng độc đáo chỉ trong 5 phút và tạo các vị trí quảng cáo có thể định cấu hình cho các chiến dịch tiếp thị trong 5 phút nữa. Điều này sẽ mất một tuần làm việc cho nhiều đội ngũ tiếp thị và kỹ thuật trong quá khứ.

Trước đây, sau khi chúng tôi tạo không gian tiếp thị trên trang web của công ty, nếu chúng tôi muốn xóa nó sau Giáng sinh hoặc thay thế bằng nội dung mới, chúng tôi phải tìm một kỹ sư để thực hiện. Tôi tự hỏi, liệu tôi có thể tạo một trang web có thể định cấu hình không gian tiếp thị không?

AI mất thêm 5 phút để tạo ra một trang web có thể định cấu hình các vị trí tiếp thị. Điều này có nghĩa là các nhà tiếp thị có thể đăng nhập vào trang web này, tải lên hình ảnh hoặc nội dung khác, sau đó trực tiếp sửa đổi phần tương ứng của trang web chính.

Sau khi thực hiện xong, tôi nghĩ, vì đây là sản phẩm hoàn toàn mới, có một số khái niệm mới hoặc ở một mức độ phức tạp nhất định, tôi có thể tạo ra video để giải thích các chức năng của trang web này không, có thể là video tiếp thị, hướng dẫn vận hành hoặc giới thiệu sản phẩm.

Nhưng nhân viên của tôi sẽ lờ tôi đi trong Lễ hội thuyền rồng. Vì vậy, tôi phải tự mình làm điều đó. Vì vậy, tôi đã viết một chương trình khác có thể tự động tạo toàn bộ tập lệnh, bao gồm cách giới thiệu trang web, cách vận hành quy trình làm việc UI của trang web và tự động ghi lại màn hình và lồng tiếng.

Mặc dù vẫn còn một số lỗi nhỏ trong việc căn chỉnh âm thanh, nhưng toàn bộ video đã được AI hoàn thiện 100%. Tôi chỉ cần đưa ra hướng dẫn, nó sẽ tự động vận hành và cuối cùng trình bày video đã hoàn thiện trước mắt tôi.

Tôi cảm thấy thực sự mãn nguyện khi hoàn thành được việc này chỉ trong vài ngày.

Sau đó, tôi muốn xem những người khác sẽ ứng xử nó. Vì vậy, tôi đã tải mã lên GitHub và yêu cầu các đồng nghiệp của mình tải xuống. Nhưng hãy nhớ rằng, chúng tôi là hai cá nhân khác nhau và GitHub không biết cách tôi giao tiếp với AI để thực hiện điều này.

Vì vậy, đồng nghiệp của tôi đã nhìn thấy mã và chạy nó cục bộ.

Khi các đồng nghiệp của tôi tải xuống mã mà tôi đã tải lên GitHub và chạy nó, họ đã bị sốc bởi sự phức tạp và tốc độ hoàn thành của nó. Họ cho rằng phải mất hàng chục người trong vài tháng để hoàn thành, nhưng khi tôi nói với họ rằng nó đã được hoàn thành bởi một kỹ sư trong hai ngày với sự trợ giúp của AI, phản ứng của họ là: "Điều này hoàn toàn điên rồ."

Họ rất ngạc nhiên khi thấy có hơn 40.000 dòng mã trong trong đó, vượt xa 300 dòng mã thuật toán mà tôi viết trong một ngày tại Google trước đây.

Khi tôi còn ở Google, tôi đã viết 300 dòng mã thuật toán (không phải mã đơn giản) mỗi ngày, được coi là năng suất cao. Gần đây, tôi đã viết một tổng đại lý, viết 3.000 dòng mã Python cho tôi trong 3 giờ, tức là một đêm. Nói cách khác, trong 3 giờ đó, chất lượng mã chắc chắn tốt hơn những gì tôi đã viết và nó chứa logic backend thuần túy mà không có bất kỳ UI nào.

Nói cách khác, khả năng viết code trong 3 giờ tương đương với khối lượng công việc trước đây của tôi là 10 ngày làm việc.

Vì vậy, tôi đã nghĩ, một người có thể hoàn thành Google Translate. Trước đây, Google Translate được mã hóa bởi 20 tiến sĩ hàng đầu thế giới và mất rất nhiều thời gian. Bây giờ, tôi có thể tự mình làm công việc của 20 người đó. Ít nhất thì Google Translate là một hệ thống rất đáng chú ý và phức tạp vào thời điểm đó. Vì vậy, tôi nghĩ theo góc nhìn này, mọi thứ đều rất khác so với trước đây.

Tôi cho rằng chìa khóa của AI là bạn có thể xây dựng một hệ thống AI có khả năng tự phát triển.

Kinh nghiệm thực tế của Lý Chí Phi | Nguồn ảnh: Mobvoi

Để thuận tiện cho việc thử nghiệm ứng dụng của tổ chức AI, tôi đã tự động viết mã: bên trái là mã trang web, bên phải là khung thử nghiệm. Sau đó, nó tự bay lên giống như bàn chân trái giẫm lên bàn chân phải. Bạn có thể nghĩ rằng đây là một cỗ máy chuyển động vĩnh cửu, và thực sự có thể. Tất nhiên, đôi khi nó đá chân phải bằng chân trái để rơi xuống, tức là sẽ có chu kỳ âm, và cũng sẽ có chu kỳ dương.

Để đạt được mục tiêu này, ngoài các kỹ sư, tất cả những người không phải kỹ sư cũng có thể sửa đổi mã của tôi trực tiếp. Tôi cũng đã tạo ra nhiều tác nhân khác nhau.

Tất nhiên, nhiều trong số này là lời nhắc. Tôi chỉ xác minh tính khả thi và không đạt được triển khai hoặc sản xuất thực sự.

Nhưng tôi cho rằng rằng việc chứng minh ý tưởng, hoặc chứng minh với đội ngũ rằng đây là điều tôi muốn, có thể mất lượng lớn thời gian để tìm ra trước đây. Bây giờ bạn chỉ cần tạo bản demo và cho họ xem. Vì vậy, tôi cho rằng ngay cả khi là một CEO, nếu bạn có khả năng này, thì năng suất của bạn thực sự được phóng đại gấp 100 lần.

Những cạm bẫy

Trên đây là kinh nghiệm của tôi. Tiếp theo, tôi sẽ kể cho bạn nghe một số lý thuyết trừu tượng. Tôi hy vọng bạn không ngủ quên vì điều này vẫn rất độc đáo.

Tôi muốn chia sẻ một số vấn đề tôi gặp phải khi sử dụng lập trình AI.

Vấn đề đầu tiên là mọi tác nhân, ngay cả khi tôi không viết tác nhân đó, vẫn cần có sự tham gia của con người.

Tức là tôi vẫn phải nói "Tôi muốn viết một tác nhân như thế này", mặc dù bạn có thể tham khảo khuôn khổ tác nhân chung bên cạnh tôi, sửa đổi nó, rồi nói với tôi. Nhưng tôi vẫn cần phải làm điều này. Đôi khi nó luôn quên các nguyên tắc của tôi, và tôi phải nói với nó: "Bạn lại quên các nguyên tắc của tôi rồi", hoặc "Trí thông minh nên được đặt ở đâu?" Nó vẫn có những vấn đề này.

Thứ hai, nếu bạn đã sử dụng nó, bạn sẽ thấy nó luôn có khả năng cắt giảm chi phí.

Ví dụ, nếu bạn yêu cầu nó làm gì đó, rõ ràng là nó cần liên quan đến cơ sở dữ liệu phụ trợ, nhưng nó không làm. Sau khi hoàn thành, nó viết cho bạn một báo cáo dài để ghi công, nói rằng nó đã làm. Tôi thường thậm chí không nhìn vào nó và chỉ nói, "Bạn đã viết cơ sở dữ liệu rồi." Nó sẽ ngay lập tức xin lỗi và bắt đầu hành động. Ví dụ, khi tôi yêu cầu nó làm AI, nó thường thậm chí không gọi AI từ xa và tự viết một số Fallback hoặc những thứ giả mạo.

Bởi vì khi tôi thấy nó chạy nhanh như vậy, tôi biết chắc chắn là có vấn đề. Tôi nói, "Bạn thực sự đã gọi cho AI từ xa sao?" Nó lại bắt đầu xin lỗi và sau đó đi giải quyết. Lần như vậy. Nó vẫn thích cắt xén. Có quá nhiều lỗi lặp lại không thể liệt kê hết. Tôi sẽ không đi vào chi tiết.

Ngoài ra, tôi nghĩ AGI ngày nay thực sự không thể hoàn thành nhiệm vụ rất dài. Hầu hết nhiệm vụ hiện tại của tôi mất hơn nửa giờ.

Token tôi tiêu thụ mỗi ngày là 50 đô la. Miễn là tôi muốn làm việc vào ngày hôm đó, nó sẽ tiêu thụ token từ sáng đến tối. Tôi thực sự nghĩ rằng tôi có thể nói với nó: "Tôi có một số ý tưởng, đây là hướng đi của ý tưởng của tôi, hãy giúp tôi hoàn thành nhiệm vụ 10 ngày và giúp tôi kiếm được 5 triệu đô la."

Tôi không cho rằng đây là một huyền thoại, chỉ là tôi thấy nó không hấp dẫn lắm nên tôi không làm, hay đúng hơn là vì nó có thể tiêu tốn rất nhiều tâm lý và năng lượng của tôi, và tôi sẽ rất đau khổ khi không kiếm được tiền.

Nhưng tôi tự hỏi, nó có thể hoạt động liên tục trong 10 ngày mà không cần bạn can thiệp hoặc thỉnh thoảng nhắc nhở nó về hướng đi không? Nó có thể hoạt động trong một tháng hoặc thậm chí một năm không?

Tôi nghĩ sẽ không có vấn đề gì trong việc đạt được kết quả như giải Nobel hay huy chương Fields trong tương lai gần.

Bởi vì khi tôi giao tiếp với nó, đôi khi chúng ta thảo luận về các thuật toán siêu phức tạp mà chúng ta đã học trước đó, có thể chỉ được một số ít người trên thế giới nghiên cứu và nó có thể nói tốt hơn nhiều người. Vì vậy, nếu bạn cung cấp cho nó đủ ngữ cảnh và mã, nó thực sự có thể giao tiếp rất sâu sắc.

Quay lại vấn đề cơ bản: Tổng đại lý và tình báo là gì?

Tiếp theo, tôi muốn chia sẻ với các bạn suy nghĩ của tôi về tình báo và các tác nhân.

Nói một cách đơn giản, một tác nhân AI bao gồm hai phần cốt lõi: người lập kế hoạch và người thực hiện.

Cấu trúc của AI Agent | Nguồn hình ảnh: Mobvoi, giống bên dưới

Người lập kế hoạch, thường dựa trên mô hình ngôn ngữ lớn, chịu trách nhiệm chính của tác nhân. Người này lập kế hoạch chi tiết dựa trên nhiệm vụ. Người thực hiện có trách nhiệm đưa các kế hoạch này vào thực tế, cho dù là viết mã hay tự động hóa các hoạt động của trình duyệt để tạo ra video.

Tác nhân hoạt động theo vòng phản hồi liên tục:

Lập kế hoạch : Tác nhân phát triển một phương án hành động cụ thể dựa trên nhiệm vụ .
Thực hiện : Người thực hiện hành động theo đúng kế hoạch.
Nhận phản hồi : Trong quá trình thực hiện, Agent nhận được phản hồi tức thời từ hoàn cảnh. Ví dụ, khi Agent cố gắng chạy lệnh "python" và hệ thống cục bộ thực sự là "python 3", hệ thống sẽ báo lỗi và Agent sẽ có thể xác định và sửa lỗi thành lệnh chính xác.
Điều chỉnh và lặp lại : Tác nhân lập kế hoạch lại dựa trên phản hồi, cập nhật hiểu biết của mình về tình huống hiện tại ( bối cảnh ) và thực hiện lại.
Mục tiêu đạt được : Vòng lặp kết thúc khi các tiêu chí thành công được đặt trước (chẳng hạn như biên dịch chương trình đã thành công hoặc hoàn tất tất cả các bài kiểm tra) được đáp ứng.

Nếu chúng ta nghĩ về bản chất của trí thông minh, tôi cho rằng bản chất đầu tiên của trí thông minh là sự tiến hóa.

Giống như con người, với tư cách là tác nhân thông minh, liên tục điều chỉnh hành vi và phản ánh bằng cách thu thập phản hồi trong một hoàn cảnh cụ thể (cho dù là thực hiện nhiệm vụ hay xã hội), AI cũng nên làm như vậy. Sự tiến hóa này là tự động và không cần sự can thiệp của con người. Tác nhân tự động thiết lập một chu kỳ để liên tục hoàn thiện bằng cách lập kế hoạch, thực hiện trong hoàn cảnh , thu thập phản hồi, điều chỉnh kế hoạch và cập nhật bối cảnh.

Chìa khóa của quá trình tiến hóa này là học hỏi từ kinh nghiệm của bản thân và học hỏi từ người khác, đây chính là cái gọi là trí tuệ tập thể, học hỏi từ kinh nghiệm của người khác.

Tôi cho rằng bản chất thứ hai của trí thông minh là sự đệ quy.

Đệ quy là một ý tưởng "chia để trị": một vấn đề phức tạp được chia nhỏ thành các vấn đề nhỏ hơn cùng loại cho đến khi chúng có thể được giải quyết trực tiếp ("trường hợp cơ bản").

Ví dụ, việc tính toán số thứ 99 trong chuỗi Fibonacci phụ thuộc vào số thứ 98 và 97, bằng cách truy ngược lại F0 và F1 ban đầu.

Nếu một tác nhân muốn đạt được trí thông minh thực sự, nó cũng phải có kiến trúc đệ quy. Ví dụ, một tác nhân nhận được một nhiệm vụ lớn như "kiếm 5 triệu" sẽ dần dần chia nhỏ nó thành nhiệm vụ cụ thể: phân tích các cơ hội kinh doanh, xây dựng trang web, tạo ra video, tích hợp thanh toán, quảng cáo trên phương tiện truyền thông xã hội, v.v. Mỗi nhiệm vụ cuối cùng có thể được truy ngược lại một "tác nhân nguyên tử" có thể thực thi.

Chìa khóa của kiến trúc đệ quy này là đạt được khả năng tự tái tạo. Cũng giống như sự kế thừa của nền văn minh nhân loại dựa trên sự khám phá và tích lũy kiến thức của nhiều thế hệ, các tác nhân cũng vậy. Quan trọng hơn, các tác nhân phải có khả năng sửa đổi mã nguồn của riêng mình.

Điều này khác với Agent hiện tại chỉ điều chỉnh kế hoạch. Điều này có nghĩa là Agent có thể thay đổi cơ bản logic hoạt động của chính nó giống như việc sửa đổi gen của chính nó.

Tôi tin rằng nếu một tác nhân có thể:

Tiếp tục thực hiện và tối ưu hóa các kế hoạch của mình.
Khi gặp phải vấn đề không thể giải quyết, hãy tự mình sửa đổi mã nguồn cốt lõi của nó .
Cuối cùng, một cơ sở kiến thức được hình thành thông qua cơ chế này và thậm chí bản thân mô hình lớn cũng có thể được sửa đổi theo chiều ngược lại .

Đây sẽ là bước tiến quan trọng hướng tới trí tuệ nhân tạo tổng quát (AGI).

Đây không phải là khoa học viễn tưởng. Tôi từng không thích thảo luận về siêu trí tuệ, nhưng sau khi thảo luận sâu sắc với mô hình lớn, tôi đột nhiên cảm thấy điều này hoàn toàn có thể.

Ngoài ra, mã nguồn của AI thực sự có thể cực kỳ ngắn gọn và mã lõi có thể không quá một trăm dòng, nhưng trong đó chứa nhiều lớp đệ quy, cho phép AI khám phá, tìm hiểu phản hồi và tự lặp lại trong hoàn cảnh khác nhau.

Tôi đã từng sụp đổ niềm tin. Năm 2023, tôi có niềm tin vào AI, nhưng sau một thời gian, tôi đã từ bỏ vì không có hỗ trợ tài chính và cảm thấy mình không đủ khả năng chi trả. Năm ngoái, khi người khác nói chuyện với tôi về AI, tôi không muốn lắng nghe.

Nhưng gần đây tôi đã tìm lại được niềm tin của mình vào AI, thậm chí là AGI và siêu trí tuệ. Đây là một sự chuyển đổi đáng kinh ngạc. Tôi hy vọng niềm tin của tôi vào nó có thể kéo dài lâu hơn một chút lần.

Tầm quan trọng của hoàn cảnh và bối cảnh cá nhân

Vậy, điều quan trọng nhất ngoài mô hình lớn là gì? Điều quan trọng nhất là bạn có một hoàn cảnh và bối cảnh được cá nhân hóa.

Lấy doanh nghiệp của tôi làm ví dụ. Trước đây tôi đã làm một phần cứng thông minh, nhưng Xiaomi đã hạ giá xuống còn một phần mười của chúng tôi. Tôi đã làm một mô hình lớn, nhưng tất cả các nhà sản xuất lớn đều tham gia. Lần bạn nhận được phản hồi như thế này, bạn sẽ từ bỏ nó hoặc bạn sẽ tiếp tục điều chỉnh kế hoạch của mình.

Nếu tôi tạo ra một mô hình lớn ở Hoa Kỳ, tôi có thể được Google mua lại và kiếm được rất nhiều tiền. Hoặc nếu tôi tạo ra một phần cứng, tôi có thể được Apple mua lại và kiếm được rất nhiều tiền. Vì vậy, loại phản hồi này chắc chắn sẽ khiến hành vi của bạn hoàn toàn khác. Cùng một doanh nhân có cùng chỉ số IQ sẽ nhận được phản hồi khác nhau trong hoàn cảnh kinh doanh khác nhau ở Trung Quốc và Hoa Kỳ. Cuối cùng, hành vi và mô hình suy nghĩ của bạn sẽ hoàn toàn khác nhau. Đây là những gì tôi muốn nói, hoàn cảnh được cá nhân hóa là gì, bối cảnh được cá nhân hóa là gì.

Bối cảnh này mang tính ghi chép lịch sử nhiều hơn .

Quay lại với những gì tôi đã nói trước đó, trong thời đại của những mô hình lớn, tôi là một trong những người đầu tiên đứng lên và nói rằng tôi sẽ làm những mô hình lớn, nhưng tôi cũng có lẽ là một trong những người đầu tiên nhận ra rằng đây không phải là sở thích của tôi. Sau đó, về cơ bản tôi đã không cống hiến hết mình để làm điều này vì tôi không biết cách tham gia.

Nửa đầu năm nay, tôi cảm thấy rằng ngoại trừ ba hoặc bốn gã khổng lồ trên thế giới, các công ty khác không tư cách để nói về mô hình. Đừng tham gia vào cuộc vui, đừng lãng phí cuộc sống của bạn. Đừng lãng phí tâm lý của bạn vào đó. Bởi vì bạn không có cơ hội nào cả, đó chỉ là sự lãng phí tiền bạc và trên thực tế, bản thân mô hình lớn đã trở nên cực kỳ nhàm chán, dù sao thì đó cũng chỉ là sự lãng phí tiền bạc. Tôi không thể tìm ra điểm đột phá và tôi không thể hiểu được giá trị của hầu hết các công ty AI.

Nhưng lần này, thông qua thực hành và kiểm tra lại, tôi cảm thấy rằng ngay cả khi đó là AGI cao cấp, ít nhất tôi cũng cảm thấy mình có thể tham gia một lần nữa.

Vậy đây là chu kỳ lặp lại của Agent Planner và Executor. Nếu bạn đủ sáng suốt và có thể khiến trí thông minh tạo ra trí thông minh, tôi cho rằng bạn có thể tham gia vào toàn bộ quá trình AGI.

Bản thân mô hình lớn giống như một con chip đối với bạn. Hãy tưởng tượng con chip của Qualcomm, điện thoại di động của Apple và TikTok ở trên. Đây là những thứ hoàn toàn khác nhau. Cuối cùng, công ty tạo ra TikTok đã đạt được giá trị lớn nhất.

Tôi thấy rằng ngay cả mục tiêu AGI đầy tham vọng cũng không nằm ngoài tầm với. Bằng cách xây dựng hệ thống tác nhân đệ quy mà tôi hình dung, số tiền cần thiết có thể không lớn, nhưng phụ thuộc nhiều hơn vào trí tuệ sáng tạo. Tôi tin rằng miễn là bạn có đủ tư duy sâu sắc và khả năng kỹ thuật, ngay cả khi bạn không phải là một gã khổng lồ trong ngành, bạn vẫn có thể tham gia vào quá trình AGI.

Lịch sử của Mobvoi cũng xác nhận suy nghĩ của tôi. Chúng tôi là một trong những công ty AI đầu tiên tại Trung Quốc kể từ năm 2012, bắt đầu với trợ lý giọng nói và sau đó khám phá phần cứng thông minh (như TicWatch và TicMirror). Mặc dù chúng tôi đã trải qua những thách thức từ sự cạnh tranh trên thị trường và công nghệ chưa hoàn thiện, chúng tôi vẫn luôn đi đầu.

Sau năm 2019, chúng tôi chuyển sang phần mềm và trở thành một trong những công ty phần mềm AIGC đầu tiên tại Trung Quốc và thậm chí là trên thế giới. Ví dụ, Magic Sound Studio đã đóng góp lượng lớn nội dung lồng tiếng cho các nền tảng như Douyin và chúng tôi cũng đã phát triển các sản phẩm như Qimiaoyuan (tạo video kỹ thuật số cho con người).

Trong một hoàn cảnh cạnh tranh như Trung Quốc, một công ty công nghệ giống như một tác nhân liên tục lặp lại và tự sửa lỗi.

Cũng giống như "mã nguồn" của Mobvoi rất khác so với khi mới thành lập vào năm 2012, đây là sự phản ánh quá trình phát triển liên tục của chúng tôi.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

TechFlow

Sự sụp đổ của crypto: Cộng đồng tiền điện tử kỳ cựu Yi Lihua mất 700 triệu đô la trong một tuần.

BTC

2.94%