a16z phỏng vấn người sáng lập Hedra Michael Lingelbach: Video sáng tạo có thể trở thành xu hướng lớn tiếp theo từ meme như thế nào

Bài viết này được dịch máy
Xem bản gốc

Michael Lingelbach, nhà sáng lập kiêm CEO của Hedra, cựu nghiên cứu sinh tiến sĩ khoa học máy tính và diễn viên sân khấu tại Đại học Stanford, đã kết hợp công nghệ với niềm đam mê biểu diễn để dẫn dắt Hedra phát triển các mô hình video tạo hình hàng đầu trong ngành. Hedra chuyên về tạo video toàn thân, dựa trên hội thoại. Công nghệ của Hedra hỗ trợ nhiều ứng dụng, từ người có sức ảnh hưởng ảo đến nội dung giáo dục, giúp giảm đáng kể rào cản gia nhập thị trường sáng tạo nội dung. Bài viết này, được chuyển thể từ Podcast a16z , tập trung vào cách công nghệ AI chuyển đổi từ meme lan truyền sang các ứng dụng cấp doanh nghiệp, đồng thời giới thiệu tiềm năng đột phá của công nghệ video tạo hình.

Sau đây là cuộc trò chuyện được ChainCatcher biên soạn và chỉnh sửa (có một số phần bị xóa).

Tóm tắt

  • Trí tuệ nhân tạo đang kết nối liền mạch giữa người tiêu dùng và doanh nghiệp. Ví dụ, công nghệ này tạo ra phần mềm quảng cáo khuyến mại cho trẻ sơ sinh, nhấn mạnh sự nhiệt tình của các doanh nghiệp trong việc áp dụng công nghệ mới.
  • Nội dung meme lan truyền đã trở thành một công cụ mạnh mẽ cho các công ty khởi nghiệp, chẳng hạn như "Baby Podcast", giúp tăng nhanh nhận diện thương hiệu và chứng minh khéo léo trong chiến lược tiếp thị của mình.
  • Công nghệ tạo video bằng lời thoại và biểu cảm toàn thân lấp đầy khoảng trống sáng tạo và giảm đáng kể thời gian cũng như chi phí tạo ra nội dung.
  • Những người có sức ảnh hưởng ảo như John Lawa tạo ra nhân vật kỹ thuật số độc đáo thông qua "Moses Podcast", mang đến cho nội dung tính cách và sức hấp dẫn riêng biệt.
  • Những người sáng tạo nội dung như Mom Blogger sử dụng công nghệ để nhanh chóng sản xuất video, giúp duy trì hoạt động thương hiệu và kết nối với khán giả dễ dàng.
  • Mô hình video tương tác thời gian thực cho phép đối thoại hai chiều với nhân vật ảo, mang lại trải nghiệm nhập vai cho giáo dục và giải trí.
  • Công nghệ tạo phim nhân vật làm trung tâm tập trung vào biểu đạt cá nhân và kiểm soát nhiều chủ thể để đáp ứng nhu cầu sáng tạo nội dung động.
  • Chiến lược nền tảng tích hợp hội thoại, chuyển động và kết xuất để tạo ra trải nghiệm truyền thông sáng tạo mượt mà đáp ứng nhu cầu về nội dung chất lượng cao.
  • Các mô hình avatar tương tác hỗ trợ điều chỉnh động các yếu tố và cảm xúc trong video, báo hiệu làn sóng đổi mới tiếp theo trong việc sáng tạo nội dung.

1. Tích hợp AI từ Meme đến Ứng dụng Doanh nghiệp

Justine: Chúng tôi đang chứng kiến những giao thoa thú vị giữa các ứng dụng AI trong môi trường người tiêu dùng và doanh nghiệp. Vài ngày trước, tôi nhìn lên Forbes với hình ảnh một em bé biết nói quảng bá cho phần mềm doanh nghiệp. Điều này cũng cho thấy chúng ta đang ở trong một kỷ nguyên mới, với các doanh nghiệp đang nhanh chóng đón nhận công nghệ AI với sự nhiệt tình lớn.

Michael: Là một công ty khởi nghiệp, vai trò của chúng tôi là lấy cảm hứng từ các tín hiệu sử dụng của người tiêu dùng và biến chúng thành công cụ sản xuất nội dung thế hệ tiếp theo mà doanh nghiệp có thể tin tưởng. Trong vài tháng qua, một số nội dung lan truyền do Hedra tạo ra đã thu hút sự chú ý rộng rãi, từ nhân vật anime thời kỳ đầu đến "Baby Podcast" cho đến xu hướng hot tuần này—tôi không thực sự chắc chắn đó là gì. Meme là một chiến lược tiếp thị cực kỳ hiệu quả, nhanh chóng chiếm được cảm tình của người dùng bằng cách tiếp cận lượng lớn khán giả. Chiến lược này đang ngày càng phổ biến trong các công ty khởi nghiệp. Ví dụ, Cluey, một công ty khác trong danh mục đầu tư a16z , đã đạt được mức độ nhận diện thương hiệu đáng kể thông qua tính lan truyền trên Twitter. Bản chất của meme là công nghệ trao quyền cho mọi người nhanh chóng thể hiện sự sáng tạo của họ, và nội dung âm thanh và video ngắn đã thống trị nhận thức văn hóa. Công nghệ video sáng tạo của Hedra cho phép người dùng chuyển đổi bất kỳ ý tưởng nào thành nội dung chỉ trong vài giây.

(2) Tại sao những người sáng tạo và người có sức ảnh hưởng lại chọn Hedra

Justine: Vui lòng giải thích lý do tại sao mọi người sử dụng Hedra tạo ra meme và cách họ sử dụng nó, cũng như điều này liên quan đến thị trường mục tiêu của bạn như thế nào?

Michael: Hedra là công ty đầu tiên triển khai mô hình video tạo hình toàn thân, dựa trên hội thoại ở quy mô lớn. Chúng tôi đã hỗ trợ hàng triệu nội dung sáng tạo, và sự phổ biến nhanh chóng của chúng tôi bắt nguồn từ việc lấp đầy một khoảng trống quan trọng trong công nghệ sáng tạo nội dung. Trước đây, tạo ra podcast tạo hình, cảnh hội thoại nhân vật hoạt hình, hay video ca hát rất khó khăn, tốn kém, thiếu linh hoạt và mất thời gian. Mô hình của chúng tôi nhanh chóng và giá cả phải chăng, đồng thời thúc đẩy sự trỗi dậy của những người có sức ảnh hưởng ảo.

Justine: CNBC gần đây đã đăng một bài viết về những người có sức ảnh hưởng ảo được hỗ trợ bởi Hedra. Bạn có thể đưa ra một số ví dụ cụ thể về cách những người có sức ảnh hưởng đang sử dụng Hedra không?

Michael: Ví dụ, nam diễn viên nổi tiếng John Lawa (vai Taco trong "The League") đã sử dụng Hedra để tạo sê-ri từ "Moses Podcast" đến "Baby Podcast", nhân vật giờ đây sở hữu những bản sắc riêng biệt. Một ví dụ khác là Neural Viz, công ty đã xây dựng một " Metaverse " xoay quanh bản sắc nhân vật bằng Hedra. Hiệu ứng tạo hình khác với các mô hình truyền thông đơn giản ở chỗ chúng đòi hỏi tính cá nhân, tính nhất quán và khả năng kiểm soát phải được truyền tải vào mô hình, điều này đặc biệt quan trọng đối với hiệu ứng phim ảnh. Kết quả là, chúng ta đang thấy những cá tính độc đáo của nhân vật ảo này trở nên phổ biến, mặc dù họ không phải là người thật.

3. Người có ảnh hưởng ảo và hình đại diện kỹ thuật số

Matt: Tôi nhìn lên Instagram Reels, từ nhân vật hoàn toàn mới như người ngoài hành tinh trong sê-ri Neural Viz — những điều trước đây chỉ có thể thực hiện được với tạo ra Hollywood — cho đến những người thật sử dụng công cụ này mở rộng sự hiện diện trực tuyến của họ. Nhiều người có sức ảnh hưởng và nhà sáng tạo nội dung không muốn phải mất công sức trang điểm, điều chỉnh ánh sáng và trang điểm lần. Hedra cho phép những người như các bà mẹ blogger nhanh chóng tạo ra các video truyền tải thông điệp của họ mà không cần lượng lớn thời gian chuẩn bị. Ví dụ: họ có thể sử dụng Hedra để tạo các cuộc trò chuyện trực tiếp bằng camera.

Michael: Đó là một nhận xét thực sự quan trọng. Việc duy trì thương hiệu cá nhân là rất quan trọng đối với người sáng tạo nội dung, nhưng việc duy trì trực tuyến 24/7 lại vô cùng khó khăn. Nếu một người sáng tạo ngừng cập nhật trong một tuần, họ có nguy cơ mất người hâm mộ. Công nghệ tự động hóa của Hedra giúp giảm đáng kể rào cản gia nhập cho người sáng tạo. Người dùng có thể kết hợp các tập lệnh được tạo bởi các công cụ như Nghiên cứu Sâu, sau đó sử dụng Hedra để tạo nội dung âm thanh và video, rồi tự động xuất bản lên kênh của họ. Chúng ta đang thấy ngày càng nhiều quy trình làm việc xoay quanh việc tự xác định danh tính kỹ thuật số, cho cả người thật và nhân vật hư cấu.

(IV) Tiềm năng và thách thức của video tương tác

Justine: Video lịch sử đang là xu hướng trên Reels hiện nay. Trước đây, chúng ta học lịch sử bằng cách đọc sách, nhưng điều đó có thể hơi nhàm chán. Nếu chúng ta có thể kể lại lịch sử thông qua nhân vật và trình chiếu những cảnh video sáng tạo, trải nghiệm sẽ trở nên hấp dẫn hơn nhiều.

Michael: Mặc dù chúng tôi không nhắm trực tiếp vào lĩnh vực giáo dục, nhiều công ty giáo dục đã phát triển các ứng dụng dựa trên API của chúng tôi. Tỷ lệ tương tác của tương tác video cao hơn nhiều so với tương tác văn bản. Gần đây, chúng tôi đã ra mắt mô hình video tương tác thời gian thực, đây là sản phẩm đầu tiên đạt được trải nghiệm nghe nhìn có độ trễ thấp. Từ học ngôn ngữ đến các ứng dụng phát triển bản thân, khi chi phí công nghệ đủ thấp, nó sẽ thay đổi hoàn toàn cách người dùng tương tác với các mô hình ngôn ngữ lớn (LLM). Dự án yêu thích của tôi là "Trò chuyện với nhân vật trong sách hoặc phim yêu thích của bạn". Ví dụ: bạn có thể hỏi: "Tại sao bạn lại bước vào căn phòng tối đó khi bạn biết có một kẻ giết người?". Trải nghiệm tương tác này phong phú hơn sách nói truyền thống vì người dùng có thể đặt câu hỏi và xem lại nội dung, giúp trải nghiệm trở nên sống động hơn.

Justine: Không gian tìm kiếm mô hình phim rất rộng lớn. Việc tạo ra một khung hình đơn lẻ đã phức tạp, nhưng việc tạo ra một bộ phim liên tục 120 khung hình còn khó khăn hơn. Hedra tập trung vào một vấn đề độc đáo và thú vị, giúp nó khác biệt với các mô hình phim khác. Vui lòng mô tả định nghĩa của vấn đề này và nguồn cảm hứng của bạn.

Michael: Câu hỏi hay đấy. Chúng tôi đang chứng kiến sự chuyên môn hóa đang nổi lên ở lớp mô hình cơ sở, cũng giống như Claude đã trở thành chuẩn mực cho các mô hình lập trình, Open AI cung cấp trợ lý đa năng, và Gemini phục vụ các kịch bản doanh nghiệp nhờ hiệu quả về chi phí và tốc độ. Hedra cũng có vị thế tương tự trong lĩnh vực mô hình phim. Các mô hình cơ sở của chúng tôi có hiệu suất cao, đặc biệt là các mô hình thế hệ tiếp theo, mang lại sự linh hoạt đáng kể trong việc tạo nội dung. Tuy nhiên, chúng tôi tập trung hơn vào việc làm cho nội dung "trở nên sống động", khuyến khích người dùng tương tác với nội dung và trải nghiệm một tính cách nhất quán, lôi cuốn. Chìa khóa nằm ở việc kết hợp trí thông minh của nhân vật trong phim với trải nghiệm dựng hình. Viễn cảnh mong đợi của tôi là người dùng có thể giao tiếp hai chiều với nhân vật trong phim, nhân vật sở hữu những tính cách độc đáo, có thể lập trình được. Điều này đòi hỏi sự tích hợp theo chiều dọc, không chỉ tối ưu hóa các mô hình cốt lõi mà còn phải xem xét lại trải nghiệm tương tác của người dùng trong tương lai.

(5) Mô hình phim lấy nhân vật làm trung tâm và kiểm soát chủ thể

Michael: Tôi xuất thân từ bối cảnh kịch. Tuy không phải là diễn viên chuyên nghiệp, nhưng tôi đam mê diễn xuất nhân vật. Video là trọng tâm trong các tương tác hàng ngày của chúng ta, dù là quảng cáo, khóa học trực tuyến hay các kênh ẩn danh do Hedra cung cấp. Cảm giác kết nối là vô cùng quan trọng. Chúng tôi đang giúp người dùng hàng ngày dễ dàng tạo nội dung bằng cách giảm thiểu rào cản gia nhập và đẩy nhanh quá trình. Trong tương lai, ranh giới giữa trí tuệ mô hình và kết xuất sẽ mờ dần, và người dùng sẽ tham gia đối thoại với các hệ thống hiểu được ý định của họ. Chúng tôi xem nhân vật là đơn vị điều khiển cốt lõi, chứ không chỉ là video. Điều này đòi hỏi phải thu thập phản hồi của người dùng, tối ưu hóa tính chân thực và biểu cảm nhân vật, đồng thời cung cấp các đòn bẩy điều khiển cho nhiều tác nhân.

Matt: Tôi dành nhiều thời gian để tạo nhân vật cho nhiều bộ phim khác nhau, và sức mạnh của Hedra nằm ở các công cụ tạo nhân vật tích hợp. Bạn có thể tạo hoặc tải lên hình ảnh nhân vật, lưu lại để sử dụng sau, và thậm chí chuyển ngữ cảnh hoặc sao chép giọng nói. Nhiều video và hướng dẫn trên YouTube của tôi có giọng nói của tôi được sao chép bằng Hedra trong các câu thoại mở đầu. Trải nghiệm tích hợp này đặc biệt có giá trị trong thị trường truyền thông sáng tạo phân mảnh.

(6) Xây dựng nền tảng truyền thông sáng tạo tích hợp

Justine: Nhiều công ty như Black Forest Labs đã đạt được những đột phá công nghệ, nhưng họ vẫn cần những đối tác như Hedra để mang lại trải nghiệm tốt nhất cho người tiêu dùng và doanh nghiệp. Làm thế nào các bạn quyết định xây dựng một nền tảng tích hợp, thay vì chỉ giới hạn ở một công nghệ duy nhất?

Michael: Vấn đề nằm ở sự tập trung và nhu cầu của người dùng. Khi thành lập Hedra, tôi nhận thấy việc tích hợp hội thoại vào nội dung đa phương tiện rất khó khăn. Trước đây, người dùng phải chồng tiếng nhép tạo ra các video ngắn, vốn thiếu đi sự thống nhất. Nguồn cảm hứng kỹ thuật của chúng tôi là kết hợp các tín hiệu như hơi thở và cử chỉ với hội thoại để tạo ra một mô hình phim tự nhiên hơn. Xét về thị trường, chúng tôi nhận thấy sự khác biệt trong mức độ sẵn sàng chi trả của người dùng cho các ứng dụng khác nhau. Một số ứng dụng phổ biến có thể có mức độ sẵn sàng chi trả thấp, nhưng một số phân khúc nhất định (chẳng hạn như người sáng tạo nội dung) lại có nhu cầu cao về trải nghiệm chất lượng cao. Chúng tôi lựa chọn tích hợp những công nghệ tốt nhất, dù là của Hedra hay các đối tác như 11 Labs, để đảm bảo người dùng có được trải nghiệm tốt nhất.

Matt: Trong tương lai, nhân vật AI có văn bản, kịch bản, giọng nói và hình ảnh được tạo ra bởi một mô hình duy nhất không?

Michael: Tôi cho rằng ngành công nghiệp đang hướng tới mô hình đầu vào-đầu ra đa phương thức. Thách thức của một mô hình duy nhất là khả năng kiểm soát. Người dùng cần điều chỉnh chính xác các chi tiết như giọng nói, cao độ hoặc nhịp điệu. Đầu vào tách biệt mang lại khả năng kiểm soát tốt hơn, nhưng tương lai có thể hướng tới các mô hình đa phương thức, nơi người dùng có thể điều chỉnh độ phù hợp của từng phương thức bằng tín hiệu hướng dẫn.

7. Tương lai của Video tương tác

Justine: Tôi rất ấn tượng với khả năng tạo video dài của Hedra. Bạn có thể tải lên vài phút âm thanh và tạo video hội thoại nhân vật, tự động điều chỉnh hình ảnh và giọng nói, thay vì lãng phí tài nguyên chỉ với một lần chỉnh sửa. Mức độ kiểm soát này khiến tôi rất hào hứng về tương lai của video tương tác.

Michael: Tôi rất hào hứng với mô hình avatar tương tác mà chúng tôi vừa ra mắt. Trong tương lai, người dùng sẽ có thể định hình các yếu tố của bộ phim như một bức tranh vải mềm mại, ví dụ như tạm dừng phim và yêu cầu nhân vật buồn hơn ở một câu thoại cụ thể. Giao tiếp hai chiều này sẽ tạo ra một trải nghiệm thế hệ tiếp theo và sẽ sớm ra mắt.

Matt: Liệu có thể có một diễn viên AI thực thụ không? Người dùng có thể tương tác với nhân vật được tạo ra theo thời gian thực và đưa ra hướng dẫn.

Michael: Chắc chắn rồi. Tuy nhiên, hạn chế hiện tại không nằm ở mô hình phim, mà là tính chân thực của tính cách trong các mô hình ngôn ngữ quy mô lớn. Các AI đồng hành hiện có (như Character AI) vẫn còn dấu vết rõ ràng của việc mô hình hóa. Để đạt được nhân vật kỹ thuật số thực sự tương tác, cần có thêm nghiên cứu về tính cách có thể cấu hình được.

(8) Ứng dụng tạo âm thanh và AI gốc của Hedra

Justine: Video của Hedra rất tuyệt vời, nhưng âm thanh đôi khi không được tốt. Mẫu mới nhất của 11 Labs đã cải thiện chất lượng âm thanh, nhưng khả năng tương tác với nội dung vẫn cần cải thiện.

Michael: Tạo âm thanh là một lĩnh vực chưa được khai thác. Hiện tại, giọng nói tạo hình chủ yếu được sử dụng để thuyết minh hoặc lồng tiếng, nhưng việc tạo ra các cuộc hội thoại tự nhiên trong các tình huống như quán cà phê ồn ào vẫn còn là một thách thức. Chúng ta cần các mô hình âm thanh có thể kiểm soát âm thanh hoàn cảnh và thực hiện các cuộc hội thoại nhiều lượt để tăng cường sự tự nhiên của quá trình tạo phim. AI trong phim vẫn đang ở giai đoạn đầu, giống như các hiệu ứng CGI ban đầu trông rất chân thực nhưng giờ lại trông như hoạt hình. Các mô hình thế hệ đầu tiên của chúng tôi đã từng khiến tôi kinh ngạc, nhưng giờ chúng lại có vẻ thô sơ. Việc tạo ra các mô hình hiệu suất có khả năng kiểm soát cao, tiết kiệm chi phí và theo thời gian thực vẫn đang trong quá trình hoàn thiện.

Matt: Người dùng thích tương tác với người thật, người mô phỏng hay nhân vật hoạt hình?

Michael: Chúng tôi đã tạo ra rất nhiều nhân vật mèo và bóng bông. Mô hình thống nhất của Hedra có thể xử lý nhiều loại nhân vật, từ đá đến robot, cho phép người dùng tự do thử nghiệm và tạo ra nội dung chưa từng có. Chúng tôi đã xây dựng một mô hình thống nhất, thay vì video và hát nhép truyền thống, để tránh giới hạn người dùng bởi các hạn chế kỹ thuật. Người dùng có thể thử "đá biết nói" hoặc "podcast giữa robot và người", và mô hình sẽ tự động xử lý hội thoại và tính cách. Sự linh hoạt này đã tạo cảm hứng cho những kịch bản mang tính cách mạng dành cho người tiêu dùng.

Justine: Các ứng dụng chéo của AI rất thú vị. Nội dung do người tiêu dùng tạo ra như "Baby Podcast" đang truyền cảm hứng cho các ứng dụng doanh nghiệp. Tôi rất ngạc nhiên khi thấy một quảng cáo về em bé do Hedra tạo ra để quảng bá phần mềm doanh nghiệp trên Forbes. Điều này cho thấy các doanh nghiệp đang nhanh chóng áp dụng AI như thế nào, và chúng ta cần chuyển đổi tín hiệu của người tiêu dùng thành các giải pháp cấp doanh nghiệp.

Michael: Doanh nghiệp là lĩnh vực tăng trưởng nhanh nhất của chúng tôi. Trí tuệ nhân tạo (AI) đang rút ngắn thời gian tạo nội dung từ vài tuần xuống còn tức thời. Ví dụ, người dẫn chương trình tin tức tự động đang thay đổi cách thức truyền tải thông tin. Tin tức địa phương, vốn từng khó nắm bắt do chi phí cao, giờ đây có thể được điều hành bởi một người. Loại "cá nhân hóa quy mô vừa" này hướng đến các nhóm nhân khẩu học cụ thể, chẳng hạn như quảng cáo nhắm mục tiêu cho các nhà hàng hoặc công viên giải trí địa phương, và hiệu quả hơn mô hình Google quá cá nhân hóa.

9. Con đường của người sáng lập: Thách thức, đam mê và đổi mới hợp tác

Justine: Trải nghiệm của bạn với tư cách là người sáng lập như thế nào? Bạn đã gặp phải những thách thức và thành quả nào?

Michael: Ở San Francisco, cuộc sống của người sáng lập thường được tô vẽ như một hành trình lãng mạn để xây dựng công nghệ mang tính kỷ nguyên. Xuất thân từ một thị trấn nhỏ ở Florida, tôi chưa bao giờ nghĩ mình sẽ đi theo con đường này. Nhưng làm người sáng lập thì 99% thời gian là rất khó khăn. Bạn phải liên tục nỗ lực, và những vấn đề không bao giờ giảm bớt - từ việc đắm mình vào phát triển đến đối diện hàng loạt email hỗ trợ khách hàng. Công việc này rất mệt mỏi về mặt thể chất, nhưng sự hài lòng bên trong thì vô song. Tôi yêu người dùng và đội ngũ và không thể tưởng tượng được việc làm gì khác. Đó là một "niềm vui thứ hai" - giống như leo núi tuyết, tay chân đau nhức, nhưng bạn vẫn muốn quay lại sau khi lên đến đỉnh. Tôi đến văn phòng lúc 7:30 sáng mỗi ngày và rời đi lúc 10 giờ tối, đôi khi vẫn thảo luận về các tính năng lúc 2 giờ sáng. Điều này đòi hỏi phải từ bỏ ranh giới giữa công việc và cuộc sống, nhưng niềm đam mê đã giúp tôi tiếp tục.

Matt: Tại sao bạn vẫn tự viết code? Là để thể hiện sự sáng tạo hay để giao tiếp với đội ngũ?

Michael: Cả hai. Việc tạo mẫu giúp tôi nhanh chóng xác thực ý tưởng và truyền đạt rõ ràng kỳ vọng. Là một nhà lãnh đạo, việc giao tiếp rõ ràng là vô cùng quan trọng. Tôi thảo luận các trường hợp ngoại lệ với các nhà thiết kế để đảm bảo hệ thống có mở rộng. Lập trình cho phép tôi kết nối với đội ngũ, hiểu rõ những thách thức của họ và nhanh chóng khám phá các hướng đi của sản phẩm.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận