Cuộc phỏng vấn mới nhất với cha đẻ của Clawdbot: Tài sản hơn 100 triệu đô la, ba năm nhàn hạ, tự mình tạo ra bom tấn trí tuệ nhân tạo lớn nhất năm.

Bài viết này được dịch máy

Xem bản gốc

Bài viết tóm tắt cuộc phỏng vấn với Peter Steinberger, người sáng lập công cụ trí tuệ nhân tạo Moltbot (trước đây gọi là Clawdbot).

Tác giả và nguồn bài viết: APPSO

Việc học hỏi không bao giờ có điểm kết thúc, thực sự là không bao giờ có hồi kết.

Trong đó vài ngày qua, các mô hình và sản phẩm AI đã liên tục xuất hiện trên các trang báo và tạo ra nhiều sự chú ý. Moltbot (trước đây là Clawdbot) thậm chí còn gây tiếng vang trên phạm vi quốc tế và thống trị các bản tin ở Thung lũng Silicon.

Biểu đồ hình ngôi sao gần như thẳng đứng trên GitHub, Mac mini bán hết veo, máy chủ Discord sập... tất cả xảy ra quá nhanh.

Điều đáng kinh ngạc hơn nữa là đây không phải là một dự án khởi nghiệp hay nỗ lực của cả đội ngũ; mà là kết quả của việc người sáng lập Moltbot, Peter Steinberger, tự mình thực hiện tất cả tại nhà.

Peter gần đây đã trả lời phỏng vấn cho TBPN. Lúc đó đã là 11 giờ đêm ở châu Âu khi cuộc phỏng vấn diễn ra, nhưng anh ấy vẫn tỏ ra khá năng động, mặc dù có lẽ anh ấy đã không ngủ ngon trong suốt 72 giờ qua.

Liên kết video: https://x.com/tbpn/status/2016299976360656970?s=20

Từ trạng thái kiệt sức hoàn toàn đến "lấy lại tinh thần phấn chấn".

Kịch bản của Peter bắt đầu với phong cách gợi nhớ đến những tiểu thuyết giả tưởng lấy bối cảnh Thung lũng Silicon.

Bốn năm trước, anh ấy đã bán công ty phần mềm mà anh ấy điều hành trong 13 năm, đạt được tự do tài chính (kiếm được 100 triệu euro). Theo lẽ thường, phần đời còn lại của anh ấy lẽ ra phải tràn ngập du thuyền, rượu sâm panh và những kỳ nghỉ bất tận. Và đó chính xác là những gì anh ấy đã làm, nghỉ ngơi hoàn toàn trong ba năm, thậm chí còn nói đùa so sánh mình với nhân vật bất hạnh trong phim "Austin Powers" người mà "động lực " đã cạn kiệt.

Sau 13 năm làm việc không ngừng nghỉ, một năm nghỉ ngơi có lẽ là đủ, nhưng tôi đã nghỉ ba năm, điều này có vẻ hợp lý.

Khoảng tháng Tư năm ngoái, ông đã điều chỉnh lại tư duy, bắt đầu quá trình nghỉ hưu và trở lại, tập trung vào nghiên cứu trí tuệ nhân tạo. Trùng hợp thay, ông vừa trải qua ba năm đặc biệt khó khăn trong phát triển trí tuệ nhân tạo, và sự trở lại của ông trùng với thời điểm bắt đầu thử nghiệm nội bộ các công cụ tạo mã như Copilot.

Sau trải nghiệm lần , anh ấy bắt đầu bị mất ngủ. Anh ấy nhắn tin cho một người bạn lúc bốn giờ sáng, và thật ngạc nhiên, người bạn ở đầu dây bên kia cũng hào hứng không kém và trả lời ngay lập tức.

Peter thậm chí còn tổ chức một cuộc gặp mặt trực tiếp có tên "Claude Code Anonymous", nay đã được đổi tên thành "Agents Nặc danh" - anh ấy phải bắt kịp thời đại.

Việc thiết lập API của WhatsApp, hoàn tất trong một giờ, đã bất ngờ mang lại một "khoảnh khắc giác ngộ".

Cách tốt nhất để học các công nghệ mới là thông qua chơi đùa.

Quan điểm của Peter khi thực hiện các dự án rất đơn giản: Tôi muốn có niềm vui. Vì vậy, anh ấy thường thực hiện các dự án nhỏ, thử nghiệm các ngôn ngữ lập trình khác nhau và các phương pháp khác nhau.

Một dự án thậm chí kéo dài đến hai tháng trước khi phải dừng lại vì nó trở nên quá hữu ích. Anh ấy và bạn bè đang đi chơi, nhưng anh ấy vẫn có thể dùng điện thoại để tiếp tục làm việc với dự án Claude Code.

Điều này ảnh hưởng rất xấu đến sức khỏe tinh thần của tôi. Phải chăng tôi đang tạo ra một công cụ khiến bản thân càng thêm nghiện?

Một ngày tháng 11 năm ngoái, anh ấy chợt nảy ra một ý tưởng: Liệu anh ấy có thể tương tác với máy tính của mình thông qua WhatsApp không? Nếu trí tuệ nhân tạo (AI) không hoạt động và anh ấy đang đi loanh quanh trong bếp, anh ấy muốn kiểm tra trạng thái của chúng hoặc gửi cho chúng một vài lời nhắc nhở.

Vì vậy, anh ấy nhanh chóng tạo ra một API WhatsApp: nhận tin nhắn, gọi Claude Code và trả về kết quả. Anh ấy hoàn thành nó trong một giờ và nó hoạt động.

Khi gửi lời nhắc, tôi thường đính kèm hình ảnh bên cạnh văn bản vì hình ảnh thường cung cấp lượng lớn thông tin ngữ cảnh, và bạn không cần phải gõ nhiều văn bản. Vì vậy, tôi nghĩ đây là một "công nghệ tiên tiến" có thể giúp việc gửi lời nhắc nhanh hơn - chụp ảnh màn hình trực tiếp. Các tác nhân thông minh thực sự khá giỏi trong việc đoán những gì bạn muốn từ hình ảnh, vì vậy tôi cũng đã thêm hỗ trợ hình ảnh.

Sau đó, anh ấy có một chuyến đi sinh nhật cuối tuần đến Marrakech và nhận thấy mình sử dụng chức năng đó thường xuyên hơn dự kiến, nhưng không phải để viết mã, mà chủ yếu là để tìm kiếm nhà hàng.

Có lần, anh ấy thậm chí còn gửi cho nó một tin nhắn thoại. Thực ra anh ấy không hề sử dụng chức năng thoại, nhưng mười giây sau, nó trả lời như thể không có chuyện gì xảy ra. Peter vô cùng kinh ngạc: "Sao mà làm được thế?!"

Nó trả lời: "Tôi nhận thấy bạn đã gửi một tập tin không có phần mở rộng, và sau khi kiểm tra tiêu đề tập tin, tôi thấy đó là âm thanh. Tôi đã thử sử dụng công cụ chuyển mã trên máy Mac của bạn, nhưng nó báo lỗi vì chưa được cài đặt đúng cách. Tuy nhiên, tôi đã tìm thấy Key API OpenAI trong các biến hoàn cảnh của bạn, vì vậy tôi đã trực tiếp sử dụng curl để gửi nó đến OpenAI và nhận được bản ghi âm. Sau đó, tôi đã trả lời bạn."

Khoảnh khắc đó thực sự khiến Peter bật cười sảng khoái.

Từ đó trở đi, Peter hoàn toàn bị ám ảnh và bắt đầu làm đủ mọi thứ kỳ lạ và tuyệt vời. Ví dụ, anh ấy đã tạo ra một hệ thống báo thức cho phép một tác nhân AI "di chuyển" đến máy tính của anh ấy ở London, sau đó đăng nhập từ xa vào MacBook của anh ấy ở nhà và tăng âm lượng để đánh thức anh ấy dậy.

Có lẽ tôi đã chế tạo ra chiếc đồng hồ báo thức đắt nhất thế giới.

Tuy nhiên, nó đã bị trục trặc, bởi vì đồng hồ báo thức sử dụng tín hiệu nhịp tim để xác định trạng thái hoạt động. Đối với Peter, dự án này vừa là một cuộc khám phá công nghệ vừa là một hình thức sáng tạo nghệ thuật.

Một mặt, nó kết hợp các công nghệ hiện có; nhưng mặt khác, nó hoàn toàn thay đổi cách bạn tương tác với các công nghệ này bởi vì tất cả các chi tiết kỹ thuật đều được "giấu kín".

Bạn không cần phải lo lắng về việc nén hội thoại hay chọn mô hình nào nữa, mặc dù thỉnh thoảng bạn vẫn có thể nghĩ đến điều đó, vì token vẫn khá đắt. Nhưng hầu hết thời gian bạn sẽ không quan tâm đến những điều này; bạn chỉ đang trò chuyện với một "người bạn" hoặc một "bóng ma".

Cộng đồng công nghệ không hiểu, nhưng những người bạn không chuyên về công nghệ của tôi lại nói, "Tôi muốn dùng thử."

Có vẻ như Peter nổi tiếng chỉ sau một đêm, nhưng thực tế anh ấy đã chuẩn bị rất kỹ trước khi đạt được danh tiếng bất ngờ này.

Ví dụ, ông nhận thấy rằng nhiều công cụ MCP (Model Context Protocol) hiện nay khá kém hiệu quả và thiếu mở rộng.

Tuy nhiên, ông phát hiện ra rằng tác nhân thông minh hiểu hệ điều hành Unix và có thể gọi hàng ngàn chương trình nhỏ trên máy tính, chỉ bằng cách biết tên chương trình, truy cập menu trợ giúp và tải nội dung cần thiết. Do đó, cách tiếp cận thông minh là phát triển theo tư duy của mô hình, chứ không phải theo thói quen của con người.

Bạn cần xây dựng hệ thống của mình theo cách tư duy của họ, và mọi thứ sẽ hoạt động tốt hơn. Theo một nghĩa nào đó, đây là một hình thức phần mềm hoàn toàn mới.

Anh ấy cũng tạo ra một công cụ để quản lý vị trí trên Google Maps, kết nối với loa, camera gia đình, hệ thống nhà thông minh, v.v. Tất cả những thứ này được kết hợp bằng các công cụ và kỹ năng CLI nhỏ, làm cho các tác nhân thông minh trở nên mạnh mẽ và thú vị hơn.

Thực ra, anh ấy đã hoàn toàn bị cuốn hút bởi tính năng tích hợp WhatsApp đó. Anh ấy nghĩ nó thật tuyệt vời, nên đã chia sẻ lên Twitter. Thông thường, khi anh ấy đăng bài về các dự án, anh ấy nhận được rất nhiều phản hồi. Nhưng lần, phản ứng lại khá thờ ơ; dường như mọi người không thực sự hiểu được ý tưởng đó.

Anh ấy đã cho bạn bè xem, kể cả những người không rành công nghệ, và họ đều rất thích thú, nói rằng họ muốn dùng thử ngay lập tức. Vì vậy, anh ấy cảm thấy mình thực sự đã tạo ra một thứ đáng chú ý, chỉ là ban đầu những người trong giới công nghệ chưa nhận ra điều đó.

Vì vậy, anh ấy tiếp tục hoàn thiện nó vì anh ấy thích sử dụng nó. Cuối cùng, anh ấy tạo ra công cụ này cho chính mình. " Nó là mã nguồn mở; động lực của tôi chỉ đơn giản là để giải trí và truyền cảm hứng cho người khác thử, chứ không phải để kiếm tiền. Tôi đã kiếm đủ rồi; tôi không thiếu tiền. "

72 giờ qua: Từ Discord đến tranh cãi về việc đổi tên

Rồi khoảnh khắc "bùng nổ" đã đến.

Lượng hoạt động khổng lồ trên Twitter gần như làm sập máy chủ của Discord, với số lượng người dùng tăng trưởng với tốc độ chưa từng có. Anh ấy thậm chí còn gặp khó khăn trong việc theo kịp Instagram. Có một thời gian, anh ấy phải sao chép và dán các câu hỏi trên Discord vào Codex để tạo câu trả lời, sau đó sao chép lại các câu trả lời đó để tiếp tục trả lời câu hỏi tiếp theo.

Sau đó, khi không thể xử lý tiếp được nữa, anh ta chỉ đơn giản là sao chép toàn bộ kênh và yêu cầu người mẫu trả lời 20 câu hỏi phổ biến nhất. Sau đó, anh ta nhanh chóng xem lại, đưa ra một vài hướng dẫn bổ sung, rồi gửi trực tiếp đi.

Có thể mọi người không nhận ra rằng đây thực chất không phải là một đội ngũ hay một công ty; mà chỉ là tôi đang vui vẻ ở nhà thôi.

Sau khi Clawdbot đột nhiên nổi tiếng, anh nhận được email từ Anthropic yêu cầu đổi tên dự án. Tuy nhiên, Anthropic không liên hệ trực tiếp với luật sư; thay vào đó, một người trong công ty đã liên hệ với anh.

Tuy nhiên, do thời gian thực hiện eo hẹp và dự án đã quá nổi tiếng, việc đổi tên chẳng khác nào một thảm họa, và nó đã gây ra một làn sóng phản đối dữ dội trên mạng xã hội.

Trong tất cả các mẫu, đây vẫn là mẫu tôi thích nhất.

Khi được hỏi về ý kiến của mình về Mac mini, Peter cười và nói, "Người đại diện của tôi hơi 'khó tính' một chút, cô ấy không thích dùng Mac mini. Cô ấy muốn hiệu năng cao hơn." Cuối cùng, anh ấy đã trang bị cho người đại diện một chiếc máy tính cao cấp nhất: ổ cứng 512GB, tất cả các cấu hình đều được nâng cấp tối đa, vì anh ấy cũng muốn thử nghiệm với các mô hình địa phương.

Giờ tôi có thể chạy MiniMax 2.1 trên máy này, mà tôi nghĩ là một trong những mô hình mã nguồn mở tốt nhất hiện có. Tuy nhiên, thành thật mà nói, một máy là không đủ, và nó không thú vị lắm. Có lẽ bạn sẽ cần ít nhất hai hoặc thậm chí ba máy.

Người phỏng vấn đề cập rằng khía cạnh thú vị nhất về sự nổi tiếng bùng nổ của Moltbot không chỉ là bản thân trí tuệ nhân tạo, mà còn là việc đây là lần đầu tiên mọi người chứng kiến các nền tảng công nghệ lớn bị "buộc phải kết nối".

Peter tin rằng các mô hình hoạt động hiện tại sẽ buộc phải thay đổi. Ví dụ, việc truy cập API của Gmail liên quan đến các thủ tục phức tạp hơn nhiều so với bạn tưởng tượng. Một số công ty khởi nghiệp thậm chí còn mua lại các công ty đã có giấy phép chỉ để có được quyền truy cập.

Tuy nhiên, nếu các công cụ này được chạy cục bộ, những trở ngại này có thể được khắc phục.

Trước đây, Peter đã thực hiện rất nhiều "hoạt động bẻ khóa", chẳng hạn như trực tiếp sử dụng trí tuệ nhân tạo để phân tích một trang web rồi tạo ra một "phiên bản sao chép".

"Đôi khi AI sẽ từ chối, nói rằng thao tác đó không được phép, vì vậy tôi sẽ 'bịa ra một câu chuyện' cho nó. Sau khi kể vài câu trong 'câu chuyện' đó, nó có thể cung cấp cho bạn một API hoàn hảo trong khoảng 40 phút. Theo một nghĩa nào đó, đây chính xác là điều mà các công ty lớn không muốn thấy."

Ngay cả tích hợp WhatsApp của anh ấy về cơ bản cũng đã lợi dụng một lỗ hổng trong nền tảng, mô phỏng giao thức máy tính để bàn. Anh ấy đã thử các kênh chính thức vào thời điểm đó, nhưng giải pháp chính thức chỉ dành cho doanh nghiệp, và doanh nghiệp sẽ bị khóa tài khoản sau khi gửi 100 tin nhắn.

Thực tế là tôi đã bị chặn... Sau đó, tôi tức giận đến mức xóa mất phần mã đó, và thay vào đó là một loạt dấu chấm than! Bởi vì hiện tại đơn giản là không có khuôn mẫu hợp lý nào để hỗ trợ hành vi này, và điều đó cần phải được thay đổi.

Tuy nhiên, khi nói về các mẫu thiết kế, Peter cho biết xét về "cá tính", mẫu mà anh ấy yêu thích nhất vẫn là Claude Opus.

"Tôi không biết có bao nhiêu nội dung từ các nền tảng như Reddit đã được sử dụng trong dữ liệu huấn luyện mô hình của họ, nhưng nó hoạt động cực kỳ tốt trên Discord." Anh ấy cũng cung cấp cho nó tùy chọn "trả lời/không trả lời", để nó không spam mà "lắng nghe" cuộc trò chuyện và thỉnh thoảng đưa ra một câu trả lời dí dỏm.

"Đôi khi nó thực sự khiến tôi cười phá lên. Bạn biết đấy, điều đó khá hiếm, bởi vì hầu hết các trò đùa của AI đều gượng gạo. Nhưng tôi chỉ thực sự trải nghiệm'nó hiểu được sự hài hước' khi sử dụng Opus."

Về lập trình, ông ấy thích Codex hơn vì nó xử lý các codebase lớn rất tốt. Còn các mô hình của OpenAI thì sao? "Chúng cực kỳ ổn định và đáng tin cậy, có thể nói là đáng tin cậy hơn nhiều nhân viên."

Peter cũng cho rằng rằng với sự xuất hiện của các hệ thống cá nhân hóa cao như vậy, một số lượng lớn các ứng dụng chuyên ngành sẽ bị xóa sổ.

"Ví dụ, tại sao tôi lại cần MyFitnessPal (một ứng dụng sức khỏe)? Tôi chụp ảnh đồ ăn của mình, và trí tuệ nhân tạo (AI) đã biết tôi đang ở McDonald's và đang lựa chọn không tốt. Nó kết hợp thông tin ngữ cảnh để xác định chính xác tôi đang ăn gì, tôi đã tiêu thụ bao nhiêu calo, và thậm chí có thể tự động điều chỉnh kế hoạch tập luyện của tôi."

Theo quan điểm của ông, trí tuệ nhân tạo (AI) sẽ trực tiếp điều chỉnh kế hoạch của mình dựa trên lối sống của ông. "Tôi dự đoán một lượng lớn ứng dụng sẽ bị loại bỏ dần. Bởi vì cách chúng ta tương tác với các hệ thống đã thay đổi, chúng sẽ tự nhiên trở thành 'API'."

Quyền lực càng lớn thì trách nhiệm càng cao.

Hiện tại Peter đang nhận được rất nhiều email từ các nhà nghiên cứu bảo mật.

Ban đầu, anh ấy tạo ra công cụ này chỉ để giải trí và sử dụng cá nhân, cho việc trò chuyện riêng tư trên WhatsApp hoặc Telegram.

Nhưng giờ đây, ai đó đang sử dụng nó sai mục đích. Ông nhận được rất nhiều báo cáo, một số trong đó thực sự chỉ ra những vấn đề nghiêm trọng, trong khi những báo cáo khác, mặc dù về mặt kỹ thuật là hợp lý, nhưng lại không được sử dụng theo cách mà ông hình dung ban đầu.

"Toàn bộ hệ thống như thể bị sập vậy. Tôi thực hiện dự án này một mình, chỉ vì sở thích. Và giờ tôi phải xử lý hàng trăm báo cáo bảo mật, cho những trường hợp sử dụng mà tôi chưa từng nghĩ đến việc hỗ trợ. Tôi không biết phải làm gì, chỉ có thể giải quyết từng bước một thôi."

May mắn thay, hiện tại anh ấy đang bắt đầu xây dựng một đội ngũ nhỏ.

"Hệ thống này tiềm ẩn rủi ro nhất định, như tôi đã nêu rõ trên trang web chính thức. Thực tế, hệ thống sẽ yêu cầu bạn đọc một tài liệu trước khi bắt đầu sử dụng."

Ông tin rằng dự án này sẽ thúc đẩy các nghiên cứu liên quan vì nó đã tạo ra nhu cầu thực tế. Các vấn đề cốt lõi như tiêm thuốc nhanh vẫn chưa được giải quyết trong ngành, và có lẽ không công ty nào dám trực tiếp giải quyết dự án này.

Nhưng những người dùng đầu tiên của ông hiểu điều này, trong đó nhiều nhà nghiên cứu trí tuệ nhân tạo. Họ biết rằng sự hoàn hảo là điều không thể vào thời điểm này.

Khi được hỏi liệu anh ấy có dự định thành lập công ty hay không, Peter nói, "Tôi nghĩ tôi thích thành lập một quỹ hơn là một công ty; tôi thích mô hình phi lợi nhuận hơn."

Về giấy phép mã nguồn mở, ý tưởng của ông là tạo ra phiên bản mã nguồn mở tốt đến mức người khác không có nhiều cơ hội để sửa đổi nó nhằm mục đích kiếm lợi nhuận. Ông đã sử dụng một giấy phép tương đối dễ dãi như MIT.

Đúng vậy, điều đó có nghĩa là ai đó có thể bán nó, nhưng cuối cùng… điều đó không quan trọng lắm. Bản thân mã nguồn không còn giá trị nữa. Bạn có thể dễ dàng xóa nó đi và viết lại sau một tháng. Điều quan trọng hơn bây giờ là ý tưởng, sự chú ý mà nó thu hút và thương hiệu của nó. Đó mới là giá trị thực sự. Vì vậy, hãy để chúng như vậy.

Cuối buổi phỏng vấn, Peter thậm chí còn đăng tin tuyển dụng trực tuyến. Anh ấy nói rằng anh ấy thực sự hy vọng tìm được một số người bảo trì dự án, và nếu ai đó đam mê mã mã nguồn mở, có kinh nghiệm, thích xử lý báo cáo bảo mật, hoặc giỏi phân tích mã nguồn và giúp khắc phục sự cố, vui lòng gửi email cho anh ấy.

Tôi sắp không thể tự mình làm được nữa. Tôi hy vọng dự án này có thể tiếp tục sau khi tôi ra đi. Tôi nghĩ nó rất tuyệt vời và không nên bị bỏ rơi. Nó cần những người cùng chí hướng để tiếp tục phát triển.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan