Tiêu đề gốc: " CZ đầu tư 11 triệu đô la vào vòng hạt giống của một sinh viên cao đẳng Trung Quốc để trở thành một đại lý giáo dục ."
Tác giả gốc: Founder Park, cộng đồng doanh nhân trực thuộc GeekPark
Một sinh viên cao đẳng Trung Quốc đã huy động được 11 triệu đô la tiền tài trợ hạt giống, trở thành công ty khởi nghiệp dành cho sinh viên được tài trợ cao nhất tại Thung lũng Silicon cho đến nay.
VideoTutor, một sản phẩm đại lý giáo dục dành cho các trường học từ mẫu giáo đến lớp 12, cho phép người dùng tạo video giảng dạy/giải thích được cá nhân hóa chỉ bằng một câu, hôm nay thông báo rằng công ty đã hoàn tất vòng gọi vốn hạt giống trị giá 11 triệu đô la. Vòng này do YZi Labs dẫn đầu, với sự tham gia của Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital và một số nhà đầu tư có tiếng khác.
Đây cũng là công ty sản phẩm AI đầu tiên được YZi Labs đầu tư.
Nhà sáng lập Kai Zhao cho biết VideoTutor đã nhận được sự công nhận và hỗ trợ từ đội ngũ đầu tư của CZ và YZi Labs, và YZi Labs là đơn vị dẫn đầu vòng gọi vốn này. Họ đã nhận được hơn 10 bản đề xuất điều khoản (TS) và cuối cùng đã chọn ra một số ít trong số đó.
Phiên bản đầu tiên của sản phẩm ra mắt vào ngày 14 tháng 5 (ban đầu được ra mắt trên sàn giao dịch sản phẩm Founder Park), được thị trường công nhận và PMF xác nhận. Trong vòng chưa đầy 5 tháng, sản phẩm đã hoàn thành vòng gọi vốn hạt giống trị giá 11 triệu đô la.
Theo quan điểm của Kai, lý do cốt lõi giúp họ có thể đảm bảo được nguồn tài trợ này là nhờ có định hướng đúng đắn, "Đội ngũ thiên tài nhí" đã giải quyết được những khó khăn trong quá trình chuẩn bị cho kỳ thi tuyển sinh đại học tại Mỹ ở bậc học K-12 bằng cách sử dụng phương pháp học trực quan.
"Lĩnh vực này phù hợp hơn với những người trẻ tuổi, kết hợp với kỹ năng kỹ thuật tuyệt vời, người sáng lập có hiểu biết sâu sắc và kinh nghiệm, và việc thực hiện rất nhanh."
Không chỉ riêng họ; Cursor, Mercor, Pika, GPTZero và nhiều sinh viên đại học khác tại Thung lũng Silicon đang định nghĩa lại nhận thức của mọi người về tinh thần kinh doanh AI với các sản phẩm AI liên tục lập kỷ lục về tài trợ.
Khởi nghiệp trong thời đại AI thực sự khác biệt.
Chúng tôi đã trò chuyện với những người trẻ tại VideoTutor để tìm hiểu lý do tại sao họ có thể đảm bảo được vòng tài trợ hạt giống này, những thay đổi đang diễn ra ở các công ty khởi nghiệp tại Thung lũng Silicon hiện nay và tại sao họ lại muốn tuyển dụng nhân viên từ các công ty lớn của Trung Quốc.
Người được phỏng vấn: Tổng giám đốc điều hành Kai Zhao, Giám đốc công nghệ James Zhan.
Phỏng vấn & Biên tập | Wan Hu
Sau đây là bản ghi cuộc phỏng vấn, được biên tập và biên soạn bởi Người sáng lập Park.

Trong lĩnh vực giáo dục K-12, phương pháp học trực quan là hướng đi đúng đắn.
Nhà sáng lập Park: Rất nhiều tổ chức lạc quan về anh. Theo anh, điểm mấu chốt nào đã gây ấn tượng với họ?
Kai: Tôi nghĩ điều đầu tiên là chúng tôi đang đi đúng hướng. Ngành giáo dục AI có tiềm năng to lớn và một tương lai tươi sáng. Chúng tôi đã bước vào lĩnh vực giáo dục, bao gồm các kỳ thi tuyển sinh đại học Mỹ, cụ thể là kỳ thi SAT và AP. Đối tượng người dùng mục tiêu của chúng tôi là học sinh trung học phổ thông từ mẫu giáo đến lớp 12, và khoảng cách giữa chúng tôi và nhóm người dùng này rất nhỏ, về cơ bản là không có khoảng cách thế hệ. Chúng tôi đã trải qua toàn bộ quá trình chuẩn bị và học tập cho kỳ thi, chúng tôi hiểu rõ những khó khăn của kỳ thi và việc chuẩn bị cho kỳ thi, và chúng tôi có thể tạo ra một sản phẩm thực sự giải quyết những khó khăn này cho nhóm người dùng này.
Thứ hai, đội ngũ rất xuất sắc. James đến từ Gemini và từng là kỹ sư AI cốt lõi kiêm chuyên gia thuật toán tại Google. Bản thân tôi có ba kinh nghiệm khởi nghiệp trong lĩnh vực giáo dục, bắt đầu với phần mềm giáo dục khi còn là sinh viên năm nhất, và tham gia sáng tạo MathGPTPro vào năm hai, một dự án trong đó được chọn tham gia Diễn đàn Đổi mới Kỳ diệu, cùng nhiều dự án khác. Tôi có kinh nghiệm phát triển thành công các sản phẩm giáo dục.
Thứ ba, trong lĩnh vực giáo dục AI, cốt lõi là công cụ hoạt hình, và chúng tôi là những nhà phát triển cốt lõi của VideoTutor. Chúng tôi là đội ngũ hiểu rõ nhất công nghệ cốt lõi này và có thể khiến công cụ hoạt hình hiển thị cực kỳ chính xác.
Bản thân đội ngũ có nền tảng tiếp thị rất tốt và biết cách giao tiếp.
VideoTutor hoàn toàn phù hợp với sự đồng thuận của các nhà đầu tư mạo hiểm chính thống tại Mỹ: "đội ngũ thiên tài trẻ". Điều này ám chỉ một lĩnh vực phù hợp với người trẻ, cùng với kỹ năng kỹ thuật vững chắc, một nhà sáng lập có tầm nhìn và kinh nghiệm tuyệt vời, và khả năng thực hiện nhanh chóng. Tôi tin rằng đây là lý do chung khiến tất cả các nhà đầu tư đều lạc quan về nó.

VideoTutor ra mắt trên sàn giao dịch chứng khoán New York (NYSE) tại Ngày trình diễn EASY Residency của YZi Labs
Người sáng lập Park: Sản phẩm của bạn hướng tới giải quyết vấn đề cốt lõi nào trong ngành giáo dục?
Kai: Các sản phẩm học tập hiện có trên thị trường có thể được chia thành hai loại: sản phẩm học tập chủ động và sản phẩm học tập thụ động. Các sản phẩm học tập thụ động, chẳng hạn như Gauth, Chegg và AnswersAi của ByteDance, bao gồm những tình huống mà chúng tôi gọi là "hỗ trợ bài tập về nhà". Chuỗi học tập rất ngắn, và học sinh chủ yếu trả tiền để được hỗ trợ bài tập về nhà.
Ngược lại, VideoTutor bao quát các tình huống học tập chủ động. Chúng tôi không cần xem xét động lực học tập của học sinh vì các em phải học và thi cử, chẳng hạn như kỳ thi SAT và AP tại Hoa Kỳ. Trong trường hợp này, có lượng lớn điểm khó khăn liên quan đến hình ảnh hóa. 80% nội dung bài thi SAT bao gồm các kiến thức như hàm số và phép tính, đòi hỏi phải dựng hình ảnh phức tạp. Công cụ hoạt hình của VideoTutor có thể giải quyết tình huống này rất tốt.

Hơn nữa, giá trị giao dịch trung bình trong lĩnh vực này rất cao. Trung bình có 2,6 triệu học sinh tại Hoa Kỳ tham gia kỳ thi SAT mỗi năm, tạo ra nhu cầu đáng kể về các dịch vụ trả phí. Các khóa học SAT trực tiếp khá đắt đỏ, tính theo giờ thay vì theo gói, bắt đầu từ trung bình 150 đô la một giờ, với hầu hết có giá khoảng 230 đô la. Nhiều học sinh và phụ huynh trả phí cho các khóa học này. Tuy nhiên, VideoTutor có thể chuyển đổi hoặc thậm chí thay thế hiệu quả việc đào tạo giáo viên vì hiện tại, các video do AI tạo ra gần như không thể phân biệt được với nội dung đào tạo giáo viên. Điều này cho phép học sinh có gia sư luyện thi AI được cá nhân hóa với chi phí tối thiểu.
Người sáng lập Park: Điều gì đã thúc đẩy bạn quyết định sản xuất sản phẩm này?
Kai: Thực ra, trước chúng tôi, một đội ngũ tại Stanford đã làm điều này, gọi là Gatekeep AI. Họ cũng đang cố gắng áp dụng học tập trực quan. Tôi đã nhận ra tác động của hướng đi này vào thời điểm đó. Trong lần công ty khởi nghiệp trước đây, các sản phẩm giáo dục mà mọi người tạo ra về cơ bản đều được kết nối với API GPT, tương tự như một sản phẩm đóng gói ChatGPT. Nhưng chúng tôi nhận thấy rằng những sản phẩm chỉ dựa trên câu hỏi và câu trả lời dạng văn bản này có một giới hạn nhất định. Chúng ta có thể thấy việc kinh doanh của các công ty như Chegg và Gauth đang giảm, và phần lớn các kịch bản đã được thay thế bằng ChatGPT, bởi vì học sinh có thể giải quyết nhiều bài tập về nhà chỉ bằng cách trả 20 đô la để sử dụng ChatGPT.
Các sản phẩm dựa vào trình bao bọc API và tối ưu hóa đã đạt đến giới hạn.
Tuy nhiên, việc tạo hình ảnh đa phương thức có tiềm năng to lớn bởi vì có rất nhiều kịch bản học trực quan trong lĩnh vực thi tuyển sinh đại học tại Hoa Kỳ. Đáng tiếc là Gatekeep đã có một khởi đầu tốt nhưng không được duy trì vì ra mắt hơi sớm; khả năng lập trình mô hình cơ bản chưa đủ hoàn thiện, và GPT-4 vẫn chưa được phát hành. Hơn nữa, các công cụ hoạt hình toán học liên quan đến việc kết xuất và thuật toán, những điều mà chúng không thể khắc phục. Tuy nhiên, đội ngũ của chúng tôi đã nắm vững tất cả các khía cạnh phát triển cốt lõi của công cụ hoạt hình, giải quyết vấn đề này và đạt được khả năng kết xuất video có độ chính xác cao.
PMF: Người dùng có ý định trả tiền cao.
Nhà sáng lập Park: Sau khi sản phẩm của anh ra mắt, anh cũng đã đạt được thỏa thuận hợp tác với một số trường học. Theo anh, khi nào hoặc tính năng nào khiến anh cảm thấy "Tôi đã làm đúng với sản phẩm này, và tôi đã tìm thấy đúng điểm yếu", và anh cảm thấy mình đã tìm thấy PMF (Product-Market Fit)?
Kai: Có thể thảo luận vấn đề này theo ba chiều.
Đầu tiên, xét về chỉ báo doanh thu, VideoTutor đã nhận được yêu cầu API từ 1.000 công ty cho đến nay, bao gồm tất cả các tổ chức giáo dục lớn có tiếng tại Hoa Kỳ, và thậm chí cả một số tổ chức trong nước. Ngoài ra, nhiều trường học muốn mua dịch vụ của chúng tôi. Người dùng hướng đến người tiêu dùng (C-end) có ý định rõ ràng hơn. Một phụ huynh, đồng thời là một nhà đầu tư, trải nghiệm sản phẩm và giới thiệu cho tất cả bạn bè và gia đình dùng thử, và mọi người đều sẵn sàng trả tiền. Sau đó, bằng cách nào đó, anh ấy có được số điện thoại của tôi và nhắn tin cho tôi muốn đầu tư vào chúng tôi. Người dùng C-end có mức độ sẵn sàng chi trả rất cao.
Thứ hai, xét từ góc độ nhu cầu của người dùng. Tại sao dạy kèm một kèm một lại quan trọng ở Mỹ? Bởi vì phụ huynh tin rằng dạy kèm một kèm một rất hiệu quả và sẵn sàng chi trả. Giờ đây, công nghệ AI đa phương thức có thể đạt được hiệu quả dạy học một kèm một giống như con người, trả lời trực tiếp các câu hỏi. Hơn nữa, các bài học video do giáo viên dạy kèm một kèm một trực tuyến ở Mỹ ghi lại gần như không thể phân biệt được với các video do AI tạo ra. Đây chính là điều tôi muốn nói khi nói đến "chuyển giao nhu cầu": học sinh phải trả giá cao cho các khóa học được ghi hình sẵn mà không thể phân biệt được với các khóa học do AI tạo ra, vậy tại sao không sử dụng AI? Chi phí thấp hơn và kết quả giảng dạy tốt hơn.
Chúng tôi đã nhận được rất nhiều phản hồi tích cực từ học sinh, và nhiều giáo viên cũng sẵn sàng chia sẻ về sản phẩm. Tỷ lệ hoàn thành và thời gian sử dụng trong giai đoạn đầu đặc biệt tốt. 200 người dùng hạt giống mà chúng tôi đã chọn hiện đều là những người dùng ở giai đoạn đầu.
Thứ ba, đó là hương vị và cảm nhận của sản phẩm. Khi bạn liên tục đi ngược lại từ tiến trình của toàn bộ ngành giáo dục, đến nhu cầu cốt lõi của học sinh và phụ huynh muốn chi trả, sụp đổ đến sự phát triển của chính sản phẩm, toàn bộ logic là một vòng tròn khép kín. Vì vậy, từ ba khía cạnh này, bạn sẽ cảm thấy PMF (Product-Market Fit) là đủ. Yếu tố quan trọng nhất là sự sẵn lòng chi trả cực kỳ cao.

Một quan hệ đối tác đã đạt được với FIZZ
Người sáng lập Park: Nhiều người dùng chủ động đề nghị trả tiền và một số thậm chí còn liên hệ với bạn để muốn đầu tư.
Kai: Đúng vậy. Nhu cầu chi trả cho các kỳ thi SAT và AP vốn đã rất cao. Giá trị đơn hàng trung bình trong lĩnh vực này bắt đầu từ 100 đến 200 đô la, và các lớp học ngoại tuyến thậm chí còn đắt hơn, có thể lên tới 800 đô la. Có 2,6 triệu học sinh ở Mỹ tham gia kỳ thi SAT, trong đó 37% trong số đó sẽ chủ động chi trả. Đây là một thị trường có nhu cầu và mong muốn rất lớn. Sản phẩm của chúng tôi có thể thu hẹp khoảng cách này một cách hiệu quả.
Người sáng lập Park: Đối với những người dự thi SAT, khi được lựa chọn giữa gia sư là con người và AI, liệu họ có tin tưởng AI không?
Kai: AI hiếm khi sai khi trả lời các câu hỏi ở trình độ SAT và AP của Mỹ. Trong trường hợp này, tại sao nó lại tốt hơn gia sư ngoại tuyến? Thứ nhất, nó rẻ hơn, và thứ hai, học sinh có thể hỏi bất kỳ câu hỏi nào mình muốn mà không phải lo lắng về ý kiến của giáo viên hay sự thiếu kiên nhẫn khi hỏi những câu hỏi ngớ ngẩn. Các em có thể học mọi lúc, mọi nơi, 24 giờ một ngày.
Hơn nữa, thị trường này có thể chuyển nhượng. Sau khi hoàn thành thị trường Hoa Kỳ, chúng tôi cũng có thể chuyển nhượng sang các kỳ thi A-Level ở Canada và Anh, v.v., nơi nhu cầu về dịch vụ trả phí rất lớn.
Người sáng lập Park: Hiện tại bạn nghĩ gì về khía cạnh trả phí?
Kai: Chúng tôi cung cấp tùy chọn đăng ký hàng tháng, và một tùy chọn khác là trả tiền theo kết quả học tập. Tôi nghĩ AI đã có khả năng trả tiền theo kết quả. Chúng tôi có thể ra mắt một gói dịch vụ, ví dụ, bạn chỉ cần trả 799 đô la và chúng tôi đảm bảo con bạn đạt điểm tuyệt đối trong kỳ thi SAT Math.
Người sáng lập Park: Nhưng nếu chúng ta trả tiền dựa trên kết quả thi, thì điều đó không phải cũng phụ thuộc vào sáng kiến cá nhân của học sinh sao?
Kai: Điều này có thể không khả thi với kỳ thi tuyển sinh đại học Trung Quốc (Gaokao) vì nó bao gồm hàng ngàn chủ đề. Tuy nhiên, kỳ thi SAT của Mỹ chỉ có 62 chủ đề, 50 trong đó là tiêu chuẩn và hầu hết học sinh đều không gặp vấn đề gì. 12 chủ đề còn lại nhìn chung cũng dễ nắm bắt. Trừ khi học sinh thực sự có vấn đề về logic, nếu không thì hầu như không có khả năng họ không thể học được. Hơn nữa, hiệu quả nâng cao hiệu quả của AI là rất đáng kể.
Nhiều dịch vụ gia sư trực tuyến tại Mỹ cung cấp dịch vụ này. Bạn trả cho gia sư 1.800 đô la, và tỷ lệ thành công gần như 100% vì điểm SAT được cố định. Miễn là chỉ số IQ của học sinh ở mức bình thường, sẽ không có vấn đề gì. Tuy nhiên, điều này không áp dụng cho kỳ thi tuyển sinh đại học Trung Quốc (Gaokao), vốn không thể cải thiện trong thời gian ngắn. Hơn nữa, Gaokao ở Trung Quốc yêu cầu chênh lệch điểm đáng kể và bao gồm các câu hỏi khó, trong khi SAT của Mỹ không có câu hỏi hoàn toàn khó vì nó kiểm tra khả năng hiểu bài của bạn.
Trả tiền theo kết quả là mô hình mà các trợ giảng đã và đang sử dụng, do đó mô hình này có điều kiện tiên quyết.
Người sáng lập Park: Chi phí mẫu mã có phải là một yếu tố trong giá của các bạn không? Nó có chiếm chiếm tỷ lệ lớn không?
Kai: Giá trị đơn hàng trung bình trong lĩnh vực của chúng tôi rất cao, bắt đầu từ 69 đô la một tháng. Chi phí mô hình hiện tại rất thấp, nên đây không phải là vấn đề. Ngành giáo dục không giống như lĩnh vực lập trình, nơi mọi người đều cạnh tranh về giá, bởi vì lập trình đòi hỏi phải hỗ trợ các ngữ cảnh rất dài.
Đối với các sản phẩm hướng tới học sinh trung học, phiên bản web là quan trọng nhất.
Nhà sáng lập Park: Tôi nhớ lần anh có nhắc đến việc nguyên mẫu đầu tiên của anh chỉ mất khoảng hai tháng để phát triển. Anh đã lên kế hoạch xử lý toàn bộ chu trình phát triển như thế nào, bao gồm cả việc phân công công việc, quyết định những tính năng nào nên đưa vào và những tính năng nào không?
Kai: Toàn bộ đội ngũ chúng tôi đều nhất trí rằng các lần lặp lại phải diễn ra nhanh, vì chỉ khi nhanh, chúng tôi mới có thể nhận được phản hồi từ những người dùng đầu tiên một cách nhanh chóng.
Phiên bản đầu tiên đã gây sốt sau khi được phát hành trên Twitter, thu hút lượng lớn người dùng. Tuy nhiên, nhiều người dùng này là lập trình viên, nhà đầu tư hoặc người đam mê công nghệ - chúng ta có thể gọi chung là "người dùng sớm". Vào thời điểm đó, phản hồi từ họ còn rời rạc và không mấy giá trị. Cần phải sàng lọc trong cộng đồng người dùng rộng lớn này để xác định những người dùng hạt giống thực sự cốt lõi - học sinh trung học chất lượng cao - và sau đó thu thập phản hồi hữu ích thông qua tham vấn.
Phản hồi cốt lõi mà chúng tôi nhận được là độ chính xác kết xuất video phải đạt 100%; đây là khía cạnh quan trọng nhất cần tối ưu hóa. Các tính năng như giao diện người dùng (UI) hoặc hỗ trợ các lựa chọn âm thanh-hình ảnh TTS (Chuyển văn bản thành giọng nói) khác nhau đã bị loại bỏ. Quay trở lại cốt lõi của sản phẩm: chúng tôi đang nghiên cứu việc học kiến thức cho các tình huống liên quan đến khoa học, vì vậy độ chính xác của kết xuất đồ họa là tối quan trọng.
Người sáng lập Park: Thời gian thế hệ được quyết định như thế nào vào thời điểm đó?
Kai: Vào thời điểm đó, thời lượng tối đa là khoảng 6 phút. Điều quan trọng cần lưu ý là việc giải thích các câu hỏi và kiến thức thông thường không nên quá 6 phút. Tuy nhiên, trong phản hồi sau đó, chúng tôi nhận thấy một số học sinh có năng lực học tập yếu hơn mong muốn nội dung được giải thích chậm hơn và sâu hơn. Chúng tôi nhận ra rằng thời lượng không nên bị giới hạn mà nên phụ thuộc nhiều hơn vào khả năng học tập của người dùng.
Người sáng lập Park: Hiện tại bạn có thể ở lại bao lâu?
Kai: Sẽ không mất quá một giờ, và chúng ta có thể tiếp tục đặt câu hỏi cho đến khi hiểu rõ vấn đề. Nó tạo dữ liệu theo thời gian thực trong suốt cuộc trò chuyện, nhưng tính năng này mới được thêm vào gần đây; nó chưa có trong các phiên bản đầu tiên.
Người sáng lập Park: Có tính năng nào ban đầu bạn cân nhắc nhưng sau đó quyết định không đưa vào vì bạn nhận ra chúng không quan trọng không?
Kai: Ví dụ như ứng dụng. Lúc đó, chúng tôi nghĩ nên phát triển ứng dụng nhanh chóng, nhưng sau đó chúng tôi phát hiện ra rằng hầu hết học sinh ở Mỹ đều sử dụng máy tính xách tay hoặc iPad để học. Hầu hết các trường học từ mẫu giáo đến lớp 12 ở Mỹ đều cung cấp cho học sinh máy tính Chromebook. Máy tính rất phổ biến, và học sinh làm bài tập trên máy tính. Học sinh trung học cơ sở về cơ bản đều có máy tính, và điện thoại di động chiếm tỷ lệ chưa đến 5% các hoạt động học tập, một tỷ lệ rất thấp.
Người sáng lập Park: Vậy nếu đó là sản phẩm chủ yếu nhắm đến giáo dục hoặc sinh viên thì phiên bản web là điều đầu tiên cần làm, trong khi ứng dụng không quá quan trọng.
Kai: Vâng, chúng tôi đã biết dữ liệu này từ trước rồi, dù sao thì tôi cũng đã học ở Mỹ nhiều năm. Sau đó, chúng tôi đã tiến hành khảo sát 100 sinh viên trong số hàng chục nghìn người dùng ban đầu, và hơn 90 sinh viên trong số này có máy tính, nên chúng tôi càng tin chắc hơn vào kết quả này.
Người sáng lập Park: Khi ra mắt phiên bản đầu tiên, các bạn có nhắm đến nhóm đối tượng học sinh từ mẫu giáo đến lớp 12 không?
Kai: Vâng, đó chính là mục tiêu chúng tôi hướng đến sau này. Chúng tôi không hẳn là đối thủ cạnh tranh với Gauth; chúng tôi tập trung nhiều hơn vào việc luyện thi. Lượng lớn học sinh trung học ở Mỹ đã lựa chọn học kèm trực tiếp hoặc học trực tuyến, và VideoTutor đã đáp ứng thành công nhu cầu đó.
Người sáng lập Park: K12 có phải là nhóm người dùng cốt lõi của bạn trong ít nhất một năm không?
Kai: Đây sẽ là chỉ báo cốt lõi trong vòng hai năm.
Sử dụng các mô hình lớn, nhưng đừng chỉ dựa vào các mô hình lớn.
Nhà sáng lập Park: Anh có thể giới thiệu sơ lược về triển khai kỹ thuật hiện tại của mình không? VideoTutor thực sự hoạt động tốt hơn nhiều so với các mô hình tạo video khác trong việc tạo khóa học và biểu đồ. Thực tế, công nghệ của anh khá đáng ngạc nhiên, đặc biệt là khi nhiều mô hình thậm chí còn không thể tạo văn bản chính xác.
James: Video chúng tôi tạo ra bao gồm cả văn bản và hình ảnh. Quy trình sản xuất chung như sau: một mô hình ngôn ngữ lớn tạo ra văn bản và hướng dẫn hoạt hình tương ứng, sau đó hướng dẫn hoạt hình được kết xuất bởi công cụ hoạt hình của chúng tôi và cuối cùng được trình bày trên video.
Phần văn bản tương đối đơn giản; chúng tôi sử dụng một mô hình ngôn ngữ lớn để tạo văn bản và sau đó hiển thị trực tiếp. Tuy nhiên, phần hoạt ảnh được tạo bởi công cụ kết xuất hoạt ảnh toán học của riêng chúng tôi. Ưu điểm của nó nằm ở độ chính xác cực cao trong việc hiển thị trục tọa độ, hình dạng hình học và các yếu tố khác — đây chính là công nghệ cốt lõi của chúng tôi.
Các mô hình ngôn ngữ lớn hiện tại chỉ xuất ra văn bản. Tác nhân của chúng tôi giống như đưa cho mô hình ngôn ngữ lớn một tờ giấy và một cây bút, cho phép nó vẽ các hình ảnh động giảng dạy mà nó hình dung. Phần được vẽ hoàn toàn là công nghệ của chúng tôi.
Người sáng lập Park: Quá trình biên soạn cuối cùng của toàn bộ video, bao gồm cả âm thanh và hình ảnh, được xử lý như thế nào?
James: Ban đầu, người dùng đưa ra một gợi ý, chẳng hạn như "Định lý Pythagore là gì?". Bước đầu tiên là để mô hình ngôn ngữ lớn suy ra tất cả các tình huống, thường là 3 đến 5, tùy thuộc vào độ khó của câu hỏi. Sau đó, mô hình tạo ra một kịch bản thô cho mỗi tình huống. Tiếp theo, dựa trên kịch bản cho mỗi tình huống, một suy luận lần được thực hiện để tạo ra văn bản, hình ảnh tương ứng và giọng nói của con người cho tình huống đó. Sau đó, văn bản giọng nói của con người được tổng hợp bằng TTS (Chuyển văn bản thành giọng nói).
Cuối cùng, chúng tôi ghép tất cả các cảnh lại với nhau để tạo thành một video hoàn chỉnh.
Nhà sáng lập Park: Tôi hiểu đó là kế hoạch trong phiên bản đầu tiên. Giờ đây, khi đã thêm quy trình tương tác, liệu quy trình tạo có thay đổi không?
James: Vâng, đã có những thay đổi. Để đảm bảo người dùng xem nội dung nhanh nhất có thể, chúng tôi hiện tạo cảnh đầu tiên để họ xem, trong khi các cảnh tiếp theo được hiển thị ở chế độ nền. Khi người dùng đặt câu hỏi, chúng tôi chuyển giọng nói của họ thành văn bản, sau đó chuyển văn bản này, cùng với nội dung từ tất cả các cảnh trước đó, đến mô hình ngôn ngữ lớn để lập luận, cho phép nó lên kế hoạch cho kịch bản giảng dạy tiếp theo. Quy trình hiển thị cho các cảnh tiếp theo vẫn giống như trước.
Nhà sáng lập Park: Nếu người dùng có thắc mắc sau khi nghe một phút, họ sẽ hỏi trực tiếp. Sau khi nhận được câu hỏi, bạn sẽ gửi lại cho mô hình để xử lý cùng với nội dung đã được đề cập trước đó. Trong quá trình này, sau khi người dùng đặt câu hỏi, hoạt ảnh sẽ tiếp tục phát hay dừng lại?
James: Chúng tôi đã giảm độ trễ từ 20-30 giây ban đầu xuống còn dưới 5 giây. Về mặt tương tác, chúng tôi đã triển khai các chuyển tiếp để giảm thiểu sự tập trung của người dùng vào 5 giây đó, đảm bảo quá trình diễn ra trôi chảy. Trong vòng 4-5 giây, họ sẽ thấy nội dung mới được trình bày phù hợp với câu hỏi của họ.
Thiết kế hiện tại bao gồm việc giáo viên AI nói: "Ừm, để tôi nghĩ xem sao", rồi xóa bảng đen, giống như một giáo viên thực thụ. Nếu bạn cảm thấy có vấn đề với những gì đã nói, tôi sẽ xóa và viết lại cho bạn. Quá trình này có vẻ tự nhiên hơn.
Hơn nữa, chúng tôi không chỉ thụ động chờ người dùng đặt câu hỏi; chúng tôi còn thực hiện các bài kiểm tra trong suốt quá trình. Chúng tôi sử dụng phản hồi từ các bài kiểm tra và câu hỏi của người dùng để đưa ra suy luận. Hơn nữa, micrô của chúng tôi không hoàn toàn không bị hạn chế; người dùng cần chủ động bật và tắt chúng.
Người sáng lập Park: Vì vậy, dựa trên cơ chế này, lời giải thích dài nhất có thể đưa ra là khoảng một giờ.
James: Chính xác mà nói, không có giới hạn nào cả. Nếu anh ấy cứ thắc mắc thì cứ hỏi.
Kai: Vâng, không có giới hạn nào được đặt ra trước. Thực ra, phương pháp của VideoTutor được thúc đẩy bởi những tiến bộ trong AI đa phương thức. Chúng tôi không tạo ra nhu cầu, mà là đáp ứng tốt hơn các nhu cầu hiện có. Hãy nhìn vào giáo dục trực tiếp ngoại tuyến; tại sao phụ huynh Mỹ lại sẵn sàng trả mức giá cao như vậy? Bởi vì ngành giáo dục và đào tạo Mỹ chủ yếu cung cấp các lớp học một kèm một, bắt đầu từ 100 đô la một giờ. Điều này là do giáo viên ngoại tuyến có thể cung cấp các câu hỏi hướng dẫn; họ có thể quan sát những điểm bạn chưa hiểu và sau đó hỏi thêm. VideoTutor nỗ lực đạt được hiệu ứng học tập như giáo viên thực thụ này, cho phép mỗi trẻ tương tác và học tập theo thời gian thực.
Founder Park: Học sinh có bắt buộc phải bật camera trong giờ học không?
Kai: Không hẳn. Việc học sinh có bật camera hay không chủ yếu phụ thuộc vào luật riêng tư của Hoa Kỳ. Sản phẩm sẽ không có tính năng bắt buộc học sinh bật camera; điều này phụ thuộc vào sở thích của học sinh. Tương tác chính sẽ là đặt câu hỏi và phản hồi bằng giọng nói.
Người sáng lập Park: Về mặt kỹ thuật, bạn có sử dụng chiến lược kết hợp các mô hình nhỏ với các mô hình đám mây lớn hay không?
Kai: Đây là một nỗ lực hợp tác. Chúng tôi có một dữ liệu nội bộ với hơn 100.000 dữ liệu video. Những mẫu tốt hơn từ dữ liệu này được chú thích lần và sau đó được sử dụng để huấn luyện và tinh chỉnh các mô hình. Ví dụ: hiện tại chúng tôi có hơn 8.000 dữ liệu huấn luyện mẫu SAT. Những mô hình nhỏ được tinh chỉnh này sau đó được sử dụng kết hợp với các mô hình thương mại đa năng trên đám mây, chẳng hạn như Claude và Gemini .
Người sáng lập Park: Việc sử dụng Claude, Gemini hay GPT có ảnh hưởng đến hiệu suất cốt lõi của sản phẩm không?
Kai: Chúng tôi chủ yếu làm việc với khối K-12, và trình độ mô hình cơ bản của chúng tôi đã đủ tốt. Tuy nhiên, để đảm bảo độ chính xác 100%, chúng tôi sử dụng hai mô hình để kiểm chứng đồng thời. Nếu kết quả từ cả hai mô hình trùng khớp, về cơ bản sẽ không có lỗi. Về phần tạo mã, chúng tôi chủ yếu sử dụng Claude, vì khả năng mã hóa của nó khá tốt.
Nhà sáng lập Park: Những điểm nghẽn kỹ thuật hiện tại của sản phẩm là gì? Đó là khả năng mô hình hóa hay tạo mã?
Kai: Khả năng mô hình là trong đó khía cạnh. Một khía cạnh khác là khả năng kết xuất; chúng tôi đã đạt được tốc độ dưới 5 giây, và với việc triển khai nhiều GPU hơn, tốc độ này thậm chí còn có thể nhanh hơn nữa. Một khía cạnh khác là khả năng ghi nhớ dài hạn. Chúng tôi cần tích lũy dữ liệu hành vi học tập dài hạn của học sinh để biết những kiến thức nào các em chưa hiểu. Ví dụ, nếu các em quên kiến thức đã học một tháng trước, chúng tôi có thể nhắc lại cho các em.
James: Chúng tôi thực sự đã nỗ lực rất nhiều để cải thiện thời gian render, liên tục tạo ra những đột phá công nghệ, từ 2 phút lúc đầu xuống còn 1 phút, và giờ là dưới 10 giây. Mục tiêu cuối cùng của chúng tôi là đạt được tốc độ render gần như bằng không, để khi người dùng đặt câu hỏi, kết quả sẽ có ngay sau khi quá trình suy luận hoàn tất. Đây là một thách thức mà đội ngũ chúng tôi hiện đang nỗ lực giải quyết, nhưng chúng tôi đã tìm ra một hướng đi mới.
Bỏ qua tỷ lệ hoàn thành, chỉ cần nhìn vào điểm thi cuối kỳ.
Nhà sáng lập Park: Làm thế nào để đo lường chỉ báo cốt lõi của một sản phẩm ở giai đoạn này? Làm thế nào để xác định xem một video có hữu ích với người dùng hay không?
Kai: Chỉ báo quan trọng nhất là bài kiểm tra. Trong phiên bản mới, sau khi xem video, sẽ có bài kiểm tra ở cuối. Nếu bạn làm đúng, điều đó chứng tỏ bạn hiểu; nếu không, điều đó chứng tỏ lời giải thích chưa rõ ràng.
Hiệu quả học tập không thể chỉ được đánh giá bằng tỷ lệ hoàn thành; một số học sinh có thể hiểu bài giữa chừng. Nếu các em làm bài kiểm tra giữa chừng và đậu, các em không cần phải xem phần còn lại. Chỉ báo cốt lõi của sản phẩm chúng tôi là số lượng học sinh cải thiện điểm số.
Người sáng lập Park: Nhưng kỳ thi cuối kỳ của anh ấy được tổ chức ở một nơi khác. Làm sao ông biết được anh ấy đậu hay trượt?
Kai: Điều này đưa chúng ta đến với văn hóa sản phẩm tại Mỹ, nơi người dùng tự nguyện chia sẻ những trải nghiệm và kết quả tích cực sau khi sử dụng một sản phẩm. Nhiều học sinh đã sử dụng VideoTutor và tham gia kỳ thi SAT sẽ chủ động chia sẻ trải nghiệm và điểm số của mình. Chúng tôi cũng chọn họ làm đại sứ trường để lan tỏa lần.
Chúng tôi có 20 học sinh trung học làm đại sứ cho trường. Thực tế, bạn thấy đấy, Mercor đã rất thành công trong những ngày đầu, sử dụng mô hình "câu chuyện thành công của người dùng" điển hình. Mercor đã giúp nhiều lập trình viên Ấn Độ tìm được việc làm tại Mỹ, sau đó họ sẽ liên hệ với những người dùng này, tạo một câu chuyện người dùng cho họ và giải thích cách họ tìm được việc làm khi sử dụng Mercor. Điều này đã tạo ra hiệu ứng tiếp thị truyền miệng tuyệt vời. VideoTutor hoạt động theo cùng một nguyên tắc; chúng tôi muốn nhiều học sinh hơn sử dụng sản phẩm và đạt được kết quả tuyệt vời, sau đó chúng tôi sẽ tạo ra những câu chuyện người dùng từ những học sinh này và chia sẻ chúng.
Người sáng lập Park: Sinh viên thường chia sẻ kinh nghiệm của mình ở đâu?
Kai: Học sinh chủ yếu sử dụng TikTok, còn phụ huynh thì tham gia các nhóm trên Facebook.
Người sáng lập Park: Nếu nhìn vào khung thời gian sáu tháng hoặc một năm, kế hoạch tăng trưởng sản phẩm của bạn là gì?
Kai: Tôi nghĩ rằng về cơ bản, VideoTutor vẫn là một sản phẩm hướng đến người tiêu dùng (C-end) và tiếp thị truyền miệng cực kỳ quan trọng. Nhiều ứng dụng AI thành công dựa vào tiếp thị truyền miệng từ những người dùng đầu tiên; ví dụ, các nhà thiết kế đã sử dụng và thích nó, vì vậy nó đã lan truyền. Đối với chúng tôi, chỉ báo cốt lõi là có bao nhiêu người dự thi SAT đã sử dụng sản phẩm và đạt điểm cao, sau đó truyền bá thông tin đến những trẻ em và phụ huynh khác. Phụ huynh chủ yếu sử dụng Facebook và Instagram, còn học sinh sử dụng TikTok; chúng tôi truyền bá thông tin trên các nền tảng này. Khi loại hình truyền miệng dựa trên sự đồng thuận này được hình thành, giáo viên trong trường sẽ tự nhiên biết đến nó. Lý do nhiều trường biết đến chúng tôi sớm như vậy là vì nhiều giáo viên đã sử dụng, thích nó và giới thiệu nó cho các nhà quản lý mua hàng của trường họ. Vì vậy, yếu tố quan trọng nhất vẫn là tiếp thị truyền miệng từ những người dùng C-end; chỉ báo chính là có bao nhiêu trẻ em cải thiện điểm số của mình sau khi sử dụng nó.
Người sáng lập Park: Tình trạng chung của phiên bản mới và mốc thời gian phát hành là gì?
Kai: Chúng tôi hy vọng sẽ phát hành công khai sớm nhất là trong vòng hai tháng. Khi đó, học sinh sẽ có thể nhận được câu trả lời cho các câu hỏi với độ trễ rất thấp, và đồ họa cho các tình huống khoa học sẽ chính xác 100%. Tất nhiên, chúng tôi sẽ không đề cập đến các tình huống thi đấu hoặc kiến thức đại học phức tạp như đại số tuyến tính trong thời gian này; chúng tôi sẽ tập trung nhiều hơn vào lĩnh vực K-12.
Người sáng lập Park: Những rào cản hoặc hệ thống bảo vệ hiện tại của VideoTutor là gì?
Kai: Tôi nghĩ có một vài điểm. Đầu tiên là bánh đà dữ liệu. Đằng sau mỗi video là mã nguồn. Dữ liệu video tốt do người dùng tạo ra, sau khi chú thích lần, có thể được sử dụng để đào tạo lại và tinh chỉnh mô hình. Càng nhiều dữ liệu, chất lượng video càng tốt. Một điểm khác là dữ liệu về hành vi học tập. Chúng tôi biết những điểm yếu về kiến thức nào của từng học sinh, điều này cho phép chúng tôi xây dựng bánh đà dữ liệu. Càng nhiều người sử dụng, sản phẩm càng hiểu rõ học sinh. Thứ hai là những lợi thế công nghệ hàng đầu, chẳng hạn như thuật toán công cụ hoạt hình. Mặc dù bản thân thuật toán không phải là lợi thế cốt lõi nhất, nhưng khi chúng tôi lặp lại nhanh chóng và thu thập ngày càng nhiều dữ liệu, lợi thế sẽ trở nên rõ ràng hơn.
Thứ ba, đó là thương hiệu. VideoTutor đã trở thành thương hiệu hàng đầu trong lĩnh vực giáo dục AI đối với các bậc phụ huynh ở Bắc Mỹ, và niềm tin của phụ huynh cũng là một rào cản vô hình.
Người sáng lập Park: Bạn mong đợi VideoTutor sẽ trở thành sản phẩm như thế nào trong vòng ba đến năm năm tới?
Kai: Chúng tôi hy vọng VideoTutor sẽ trở thành giáo viên AI cho tất cả mọi người học các môn STEM trong tương lai. Chúng tôi chỉ tập trung vào STEM. Tôi nghĩ nó sẽ vượt mặt Duolingo trong tương lai. Duolingo là một sản phẩm học ngoại ngữ đẳng cấp thế giới, nhưng trong lĩnh vực STEM, trước đây chưa có sản phẩm nào đạt đẳng cấp thế giới vì STEM đòi hỏi rất nhiều kỹ thuật dựng hình đồ họa. Giờ đây, công nghệ mô hình cơ bản đã sẵn sàng, vì vậy tôi nghĩ "Duolingo" tiếp theo sẽ xuất hiện trong lĩnh vực STEM.
Chúng tôi đang tuyển dụng, đặc biệt là những người đến từ các công ty lớn trong nước.
Nhà sáng lập Park: Anh đã có lần kinh nghiệm khởi nghiệp trước đây. Tất cả những kinh nghiệm đó là gì?
Kai: Hiện tôi đang là sinh viên năm ba. Năm nhất đại học, James và tôi đã khởi nghiệp một sản phẩm giáo dục và huy động được 200.000 đô la tiền đầu tư thiên thần. Mặc dù lần bại, chúng tôi đã học được một bài học quý giá: không thể sa đà vào cạnh tranh đồng nhất. Vào thời điểm đó, ứng dụng của chúng tôi phải đối mặt với nhiều sản phẩm tương tự trên thị trường, buộc chúng tôi phải cạnh tranh giai đoạn đầu để thu hút người dùng, khiến việc kiếm tiền trở nên khó khăn.
Với công ty khởi nghiệp lần, tôi tham gia MathGPTPro với tư cách đồng đội ngũ và ở lại đó vài tháng. Trong thời gian đó, tôi đã học cách phân tích chỉ báo sản phẩm, cách xây dựng sản phẩm và cách mở rộng cơ sở người dùng. Cũng chính lúc đó, tôi đi đến kết luận rằng các sản phẩm giáo dục dạng văn bản, hướng đến câu trả lời đã đạt đến giới hạn. Điều này là do chúng không khác gì ChatGPT, và các ngân hàng câu hỏi kiến thức có cấu trúc mà các công ty như Zuoyebang đã đầu tư mạnh vào đang bị thay thế bởi khả năng chỉnh sửa mô hình quy mô lớn. Vì vậy, với công ty khởi nghiệp lần của mình, tôi biết rằng trực quan hóa là một xu hướng tất yếu.

Một bức ảnh của Zhao Kai với Sam Altman tại Đại học Harvard.
Người sáng lập Park: Ngoài việc giúp bạn nhận ra những hạn chế của các sản phẩm dạng văn bản, hai kinh nghiệm trước đây đã giúp ích như thế nào cho công việc hiện tại của bạn tại VideoTutor, về mặt đội ngũ hay các khía cạnh khác?
Kai: Nó rất hữu ích.
Đầu tiên, nó giúp tôi xác định rõ hơn hướng đi và tiềm năng tương lai của sản phẩm. Tôi phân tích lưu lượng truy cập và doanh thu trang web của đối thủ cạnh tranh để đánh giá sự phát triển tổng thể của sản phẩm.
Thứ hai, về mặt phát triển sản phẩm, nó có thể đánh giá tốt hơn tốc độ phát triển sản phẩm, bao gồm thiết kế sản phẩm, tích hợp front-end và back-end, cũng như chỉ báo cần xem xét.
Thứ ba, năng lực quản lý đội ngũ và văn hóa tổ chức. Tôi đã thiết lập một hệ thống quản lý toàn diện hơn, bao gồm phân công lao động, khen thưởng và phát hành quyền chọn cổ phiếu cho từng thành viên trong nhóm. Ngoài ra, tôi còn học được cách huy động vốn. Chúng tôi đã hoàn thành vòng gọi vốn 10 triệu đô la này trong vòng 20 ngày.
Người sáng lập Park: Hiện tại đội ngũ của bạn có bao nhiêu người?
Kai: Có 6 người sống chung.
Người sáng lập Park: Ban đầu đội ngũ được thành lập như thế nào?
Kai: James và tôi đã khởi nghiệp lần lần. Cả hai chúng tôi đều tốt nghiệp cùng một trường đại học, và chúng tôi đã cùng nhau tạo ra một ứng dụng vào năm thứ nhất. Năm thứ hai, tôi cùng hai người khác khởi nghiệp, và tất cả chúng tôi đều quen biết nhau. Khi nhận ra công nghệ này có thể mang lại một viễn cảnh mong đợi sản phẩm rất lớn, chúng tôi đã liên hệ với nhau để thành lập một nhóm phát triển sản phẩm. Tất cả chúng tôi đều là cựu sinh viên, bao gồm cả Nick, một thành viên khác đội ngũ, cũng là bạn cùng phòng đại học của tôi.
Nhà sáng lập Park: Hiện tại, anh đang có kế hoạch mở rộng tuyển dụng. Anh đang tìm kiếm những ứng viên nào?
Kai: Chúng tôi chủ yếu tuyển dụng các vị trí back-end, front-end, mô hình ngôn ngữ lớn và UI/UX, và chúng tôi ưu tiên những ứng viên có kinh nghiệm. Lý do là vì chúng tôi đã vượt qua giai đoạn thử nghiệm và sai sót, bước vào giai đoạn xây dựng sản phẩm nhanh chóng, đòi hỏi những người có kinh nghiệm để hỗ trợ phát triển.
Nhà sáng lập Park: Chúng tôi cần những kỹ sư, nhà quản lý sản phẩm và người dẫn đầu tăng trưởng giàu kinh nghiệm để phát triển sản phẩm từ 1 lên 10, hoặc thậm chí từ 10 lên 100.
Kai: Vâng, đó là giai đoạn đó. Chúng tôi dự kiến sẽ mở rộng đội ngũ lên 9 đến 10 người, với việc tuyển dụng kỹ sư là ưu tiên hàng đầu.
Hoạt động tuyển dụng lần có thể sẽ được tiến hành trong nước, do đó sẽ kết hợp giữa tuyển dụng trực tiếp và tuyển dụng từ xa.
Người sáng lập Park: Bạn hy vọng người này sẽ có bức chân dung như thế nào?
Kai: Chúng tôi ưu tiên ứng viên có kinh nghiệm làm việc tại các công ty lớn như ByteDance hoặc Meituan. ByteDance có văn hóa tổ chức năng động, nhanh nhạy, coi trọng người trẻ. Những người được đào tạo tại ByteDance sở hữu phương pháp luận và kỹ năng vững chắc, và việc gia nhập ByteDance cho phép họ áp dụng những kinh nghiệm thành công của mình vào quá trình học tập.
Chúng tôi đang tìm kiếm những người có kinh nghiệm trong các chiến lược ứng phó áp lực cao, lặp lại nhanh chóng từ các công ty hàng đầu trong nước. Chúng tôi đã vượt qua giai đoạn khởi nghiệp của sinh viên và không cần tuyển dụng người mới hoàn toàn nữa. Chúng tôi cần những người có kinh nghiệm hơn, nhưng không phải là những người kỳ cựu trong ngành. Những người kỳ cựu trong ngành có thể có trách nhiệm gia đình và không thể có động lực mạnh mẽ như vậy. Vì vậy, một người ở giữa - trẻ trung và năng động - là lý tưởng.
Chúng tôi sẵn sàng cung cấp quyền chọn cổ phiếu hào phóng cho những tài năng hàng đầu. Mặc dù đã huy động được 11 triệu đô la, tại sao chúng tôi lại không tuyển dụng kỹ sư tại Hoa Kỳ? Bởi vì chúng tôi tin rằng năng lực phát triển sản phẩm và kỹ thuật của Trung Quốc thực sự vượt trội. Làn sóng này gần như chắc chắn sẽ chứng kiến đội ngũ do Trung Quốc điều hành tạo ra những sản phẩm tuyệt vời, hứa hẹn thành công trên trường quốc tế. Nhiều ứng dụng AI hiện đang được phát triển bởi người Trung Quốc; năng lực kỹ thuật của Trung Quốc thực sự ấn tượng. Đây cũng là lợi thế của chúng tôi - chúng tôi cần tận dụng thế mạnh của cả Trung Quốc và Hoa Kỳ.
Sinh viên đại học ở Thung lũng Silicon đều đang khởi nghiệp kinh doanh AI.
Founder Park: Xu hướng khởi nghiệp của sinh viên đại học hiện nay đặc biệt rõ rệt, nhất là ở Thung lũng Silicon. Ông thấy tình hình thế nào?
Kai: Hãy cùng xem xét một thực tế: lấy các công ty được định giá trong vòng gọi vốn này làm ví dụ: Mercor, công ty tập trung vào tuyển dụng dựa trên AI, đã hoàn thành một vòng gọi vốn mới trị giá hơn 300 triệu đô la, nâng định giá lên hơn 10 tỷ đô la; trong khi Cursor đã chắc chắn được định giá 10 tỷ đô la. Ngoài ra còn có các công ty như GPTZero và Pika, cùng nhiều công ty khác. Tất cả đều là các công ty khởi nghiệp của sinh viên đại học, đặc biệt là Cursor và Mercor, với những người sáng lập đều bỏ học đại học năm thứ ba.
Làn sóng doanh nhân trẻ này có chung một đặc điểm: tính cạnh tranh cao. Họ tập trung vào những lĩnh vực cực kỳ hẹp, tránh những cách tiếp cận chung chung. Ví dụ, Mercor, tập trung vào tuyển dụng AI, ban đầu chỉ tuyển dụng lập trình viên Ấn Độ.
Điểm thứ hai là hoàn cảnh. Hoàn cảnh vốn và sự đổi mới sáng tạo tiềm ẩn của Thung lũng Silicon, chẳng hạn như Stanford, Y Combinator và quỹ Peter Thiel, hỗ trợ tinh thần khởi nghiệp của sinh viên đại học ngay từ những giai đoạn đầu. Họ sẵn sàng hỗ trợ bạn bất kể bạn có ý tưởng chín chắn hay không, và cung cấp một mạng lưới liên lạc vững chắc.
Thứ ba, tôi nghĩ đó là phẩm chất của những sinh viên đại học này. Dù là chúng tôi hay những sinh viên đến từ Thung lũng Silicon, họ đều sở hữu tinh thần phiêu lưu mạo hiểm rất dũng cảm và khả năng học tập cực kỳ mạnh mẽ. Tinh thần phiêu lưu mạo hiểm này có thể là điều mà nhiều sinh viên Trung Quốc còn thiếu. Bởi vì ở Thung lũng Silicon, xung quanh bạn có rất nhiều tấm gương thành đạt khích lệ, và hoàn cảnh đầu tư cũng sẵn sàng tin tưởng vào người trẻ hơn.
Riêng tôi, tôi cũng cân nhắc giữa cái giá phải trả và lợi nhuận lúc bấy giờ. Nếu tôi chọn học xong đại học rồi đi làm, có thể tôi sẽ không đủ khả năng trả nợ cho gia đình chi phí du học, và cũng không nhất thiết phải thấy được lợi nhuận đáng kể. Nhưng nếu tôi chọn khởi nghiệp, tôi có thể học như điên ngay từ khi còn trẻ, và cuộc sống của tôi sẽ có vô vàn tiềm năng. Tôi đã mơ ước tạo dựng một công ty tuyệt vời từ khi còn nhỏ.
Nhà sáng lập Park: Tại sao thế hệ sinh viên ngày nay có thể xây dựng những công ty trị giá hàng chục tỷ đô la, trong khi trước đây, việc bán được với giá mười hoặc hai mươi triệu đô la được coi là một thành tựu lớn? Liệu có phải do sự bùng nổ hay bong bóng AI không?
Kai: Tôi không nghĩ đây hoàn toàn là bong bóng. Cursor có doanh thu thực tế 450 triệu đô la, một con số rất đáng tin cậy. Đằng sau điều này là phương pháp luận và tầm nhìn chiến lược của thế hệ đội ngũ trẻ này. Hãy nhìn vào đội ngũ này, tất cả họ đều có bối cảnh xuất sắc và khả năng học hỏi rất tốt.
Ban đầu, Cursor dựa vào đội ngũ lập trình viên sinh viên đại học, những người rất nhạy bén với AI và cung cấp phản hồi tích cực. Bản thân nhà sáng lập cũng là một kỹ sư tài năng, am hiểu sâu sắc về người dùng và có khả năng lặp lại kỹ thuật mạnh mẽ; sản phẩm được xây dựng từ con số 0 với chỉ bốn người trong những ngày đầu. Sau khi lặp lại sản phẩm thành công, họ đã tạo dựng được uy tín trong lòng người dùng, tạo ra doanh thu, và các nhà đầu tư, lo sợ rằng họ có thể bỏ lỡ một Mark Zuckerberg tiếp theo, đã rót vốn.
Điều kiện cơ bản nhất là nhiều công nghệ trong làn sóng AI này còn mới mẻ, và những người trẻ tuổi học hỏi rất nhanh, thực dụng, đáng tin cậy và táo bạo. Do đó, họ có sự hiểu biết sâu sắc về người dùng và tốc độ lặp lại cực nhanh, đủ sức đánh bại các sản phẩm truyền thống. Ví dụ, trước Cursor, GitHub Copilot cũng khá tốt, nhưng tại sao nó lại không thể vượt qua Cursor? Đó là nhờ trải nghiệm người dùng và tốc độ thực thi.
Người sáng lập Park: Có thể nói rằng vì AI là công nghệ mới nên nhiều nhận thức về sản phẩm cũng cần được xem xét từ góc độ mới không?
Kai: Đúng vậy, thế hệ doanh nhân trẻ có sự hiểu biết và nhận xét sâu sắc hơn thế hệ trước, và họ gần gũi với người dùng hơn. Người dùng AI chính thống hiện nay đều sinh sau năm 2000, tốc độ học hỏi và phản hồi cũng như khả năng chịu đựng của họ nhanh hơn thế hệ doanh nhân trước.
Do đó, tốc độ lặp lại nhận thức là chìa khóa. Trong kỷ nguyên internet di động, tốc độ lặp lại công nghệ được tính bằng năm hoặc quý, nhưng trong kỷ nguyên AI, tốc độ này có thể chỉ tính bằng ngày. Là người sáng lập, bạn phải học hỏi nhanh chóng, và những người trẻ tuổi thường thức khuya và có nhiều động lực hơn.
Founder Park: Một số cơ quan truyền thông đưa tin nhiều nhà sáng lập ở Thung lũng Silicon đã bắt đầu làm việc theo mô hình 996 (từ 9 giờ sáng đến 9 giờ tối, 6 ngày một tuần). Ông nghĩ gì về điều này?
Kai: Một số người bạn doanh nhân da trắng của tôi đã huy động được rất nhiều vốn và họ cũng làm việc theo mô hình 996 (9 giờ sáng - 9 giờ tối, 6 ngày một tuần). Họ, giống như chúng tôi, thuê một căn nhà lớn, nơi mọi người cùng sống và làm việc. Tôi nghĩ mô hình 996 là một lựa chọn bắt buộc do hoàn cảnh. Thung lũng Silicon giống như cơn sốt vàng hiện nay; không ai muốn tụt hậu, nên đối thủ cạnh tranh duy nhất là tốc độ lặp lại sản phẩm, đòi hỏi phải làm việc đến tận khuya để lặp lại nhanh chóng. Đó là một hoàn cảnh định hình mọi thứ, sụp đổ mọi người phải làm điều này.
Founder Park: Xu hướng lựa chọn lĩnh vực kinh doanh của sinh viên khởi nghiệp tại Thung lũng Silicon là gì?
Kai: Tôi nghĩ rằng có một xu hướng, dù chúng ta làm trong lĩnh vực giáo dục hay bất kỳ lĩnh vực nào khác, là khởi nghiệp trong vùng an toàn của mình. Vùng an toàn đề cập đến mức độ hiểu biết của bạn về lĩnh vực này và người dùng của nó. Nhà sáng lập Cursor có hiểu biết sâu sắc về lập trình, và chúng tôi bắt đầu trong lĩnh vực giáo dục vì chúng tôi hiểu rõ đối tượng mục tiêu. Ngày nay, người trẻ có xu hướng khởi nghiệp trong vùng an toàn hiện có của mình hơn là vội vàng nhảy vào những lĩnh vực xa lạ. Điều này là do phản hồi từ người dùng mà bạn nhận được nhanh hơn và chính xác hơn.
Ngoài ra còn có sự phân tầng kiến thức. Đã làm việc trong ngành giáo dục ba lần, hiểu biết của tôi liên tục được mở rộng. Những sinh viên đại học này ít có khả năng làm những việc họ chưa từng làm trước đây một cách hấp tấp; họ luôn suy nghĩ về cách làm tốt hơn. Họ có lối tư duy của thế hệ mới, liên tục lặp lại trong khuôn khổ nhận thức của riêng mình và dám tạo ra cơ hội.
Một yếu tố then chốt khác là tinh thần dám chấp nhận rủi ro. Họ không dễ bị ảnh hưởng bởi ý kiến của người khác và luôn giữ thái độ "Tôi không quan tâm người khác nghĩ gì về tôi", thể hiện sự tự tin tuyệt đối. Đằng sau điều này là văn hóa "thử nghiệm tốc độ cao". Tôi biết sản phẩm của mình chưa sẵn sàng, nhưng tôi không quan tâm; ra mắt nhanh chóng, lặp lại nhanh chóng và nhận phản hồi nhanh chóng.
Người sáng lập Park: Xu hướng này bắt đầu từ khi nào?
Kai: Tôi nghĩ đó là thành công dựa trên sự đồng thuận. Khi mọi người chứng kiến những dự án như GPTZero phát triển từ phòng ký túc xá, liên tục lặp lại, rồi nhận được hỗ trợ vốn và sự công nhận của người dùng, sẽ có rất nhiều trường hợp thành công như vậy nhờ thử nghiệm nhanh chóng và tăng trưởng nhanh chóng, dẫn đến sự đồng thuận.
Tóm lại, "Hoàn thành tốt hơn là hoàn hảo" - sự hoàn thiện quan trọng hơn sự hoàn hảo. Và không có nhiều lo lắng về cạnh tranh; nhiều nhà sáng lập ở Thung lũng Silicon sẵn sàng chia sẻ ý tưởng sản phẩm của họ, không ngại sao chép, miễn là họ lặp lại nhanh chóng. Tôi nghĩ làn sóng người trẻ này cũng có kỹ năng kể chuyện tuyệt vời. Cách kể chuyện này không phải là những lời sáo rỗng, mà là dựa trên chủ nghĩa thực dụng và sự thật, kết hợp với tầm nhìn của họ về tương lai.
Người sáng lập Park: Đầu tiên, hãy tiếp thị bản thân bạn.
Kai: Đúng vậy. Tôi nghĩ tư duy nền tảng nằm ở tinh thần phiêu lưu và sự tự tin tột độ. Được thúc đẩy bởi điều này, họ liên tục và dũng cảm thử nghiệm rồi thất bại, không ngại nói sai. Họ mạnh dạn thể hiện ý tưởng sản phẩm, mạnh dạn thực hiện chúng, và nếu mắc lỗi, họ có thể dễ dàng sửa chữa. Văn hóa không ngại thử nghiệm và thất bại này đã góp phần tạo nên làn sóng nhiệt huyết và thành công trong giới sinh viên đại học.
Các nhà đầu tư mạo hiểm ở Hoa Kỳ cũng xem xét các dự án của sinh viên đại học; Y Combinator thường xuyên đầu tư vào một số dự án của sinh viên đại học trong mỗi vòng.
Việc gây quỹ là điều cuối cùng mà VideoTutor cần phải lo lắng lúc này.
Nhà sáng lập Park: Nếu được quay lại thời điểm mới thành lập VideoTutor, bạn sẽ khuyên bản thân điều gì? Bạn có thể làm tốt hơn điều gì?
Kai: Tôi nghĩ tốc độ cần phải nhanh hơn. Ngoài ra, còn có vấn đề về thành phần đội ngũ. Đội ngũ VideoTutor đã trải qua nhiều vòng sàng lọc. Nếu tôi biết sớm hơn, tôi đã nên tập hợp đội ngũ dựa trên hồ sơ kỹ năng cần thiết cho sản phẩm. Tôi nghĩ rằng xét cho cùng, khả năng tổ chức là yếu tố then chốt đối với các công ty khởi nghiệp. Tôi sẽ dành nhiều thời gian hơn cho các kỹ năng tổ chức: tuyển chọn, xác định và sử dụng nhân tài hiệu quả.
Đội ngũ hiện tại phù hợp để phát triển từ 0 lên 1, nhưng để VideoTutor lớn mạnh hơn, chúng tôi vẫn cần thêm nhiều người có kinh nghiệm tham gia và mang kinh nghiệm cũng như khả năng tuyệt vời của họ vào đội ngũ để giúp toàn đội ngũ cùng nhau phát triển.
Người sáng lập Park: Bạn nghĩ VideoTutor có thể gặp phải những thách thức nào về sản phẩm hoặc kỹ thuật trong sáu tháng tới?
Kai: Tôi nghĩ một khía cạnh là kết xuất. Để đạt được độ trễ bằng không thực sự, chúng ta vẫn cần những đột phá về kỹ thuật. Khía cạnh thứ hai là tăng trưởng, mà tôi nghĩ liên quan đến trải nghiệm sản phẩm. Điều này liên quan đến nhiều yếu tố, chẳng hạn như thiết kế giao diện người dùng và tương tác có mượt mà và hoàn hảo hay không, các tương tác chức năng có lỗi không, và bố cục hình ảnh có đẹp mắt không, v.v. Tất cả đều là những thách thức đối với chúng tôi.
James: Tôi nghĩ ban đầu, chúng tôi định vị VideoTutor là một nền tảng giảng dạy và gia sư trực quan cho tất cả các môn học, nhưng sau đó chúng tôi tập trung hơn, chỉ nhắm đến lĩnh vực toán học, vì đó là lĩnh vực chúng tôi giỏi nhất. Công cụ kết xuất toán học của chúng tôi là chuyên nghiệp nhất. Bước đột phá quan trọng tiếp theo của chúng tôi có thể sẽ là mở rộng theo chiều ngang. Ví dụ, làm thế nào để chúng tôi đưa những lợi thế của hình ảnh hóa vào các tình huống nhân văn? Giống như việc giải thích "Cuốc ruộng vào buổi trưa, mồ hôi nhỏ giọt xuống đất". Đây là một điểm chúng tôi cần xem xét về mặt kỹ thuật trong tương lai.
Người sáng lập Park: Liệu bối cảnh của người sáng lập có gây ra vấn đề gì trong quá trình mở rộng sau này không?
Kai: Không hẳn. Thực ra, nhiều VC lớn đã tiếp cận chúng tôi, như a16z chẳng hạn. Họ không đầu tư quá sớm; họ chỉ hỗ trợ khi đội ngũ đã có dấu hiệu thành công, để họ biết khoản đầu tư sẽ không thất bại. Chúng tôi duy trì mối quan hệ rất tốt với nhiều VC lớn.
Việc gây quỹ là mối lo ngại ít nhất của VideoTutor; mối quan tâm lớn nhất của họ là hệ sinh thái người dùng và bản thân sản phẩm.



