Bài viết này được dịch máy
Xem bản gốc
Một tuần trước, Microsoft đã phát hành mô hình VibeVoice mã nguồn mở, và hôm nay Google đã cập nhật Gemini Audio. Trong những ngày giữa hai sự kiện đó, tôi đã tạo ra MeetLingo: một công cụ dịch giọng nói thời gian thực (Speech-to-Speech) tập trung vào các cuộc họp trực tuyến trên máy tính.
Lý do thực ra khá đơn giản. Khi VibeVoice nói rằng nó có thể xử lý độ trễ 300ms, tôi nhận ra rằng độ trễ của TTS (Chuyển văn bản thành giọng nói) đủ thấp để sử dụng trong "các cuộc họp tức thời" và các tình huống cần phản hồi nhanh khác. Vì vậy, tôi đã sử dụng Vibe Coding để tạo ra sản phẩm tối thiểu khả thi (MVP) chỉ trong một ngày.
Toàn bộ hệ thống sử dụng kiến trúc truyền phát dữ liệu: giọng nói được nhận dạng và dịch ngay trong khi đang được nói, mã thông báo được gửi đến phần mềm chuyển văn bản thành giọng nói (TTS) khi đang được phát âm, và cuối cùng giọng nói được xuất ra trực tiếp, thay vì phải chờ câu nói kết thúc trước khi quá trình xử lý bắt đầu.
Đó là lý do tại sao, hiện nay, trên cơ sở mô hình cục bộ + mã nguồn mở, TTFA (Time To First Application) nằm trong khoảng 1000-1500ms. Trong thế giới mã nguồn mở, nơi có thể tự xây dựng, sửa đổi và nhúng, con số trung bình là hơn 2000ms, vì vậy con số của chúng tôi đã được coi là rất cạnh tranh (tương đương với tốc độ dịch trong Google Video).
Thành thật mà nói, khi tôi thấy Google công bố bản cập nhật cho Gemini Audio hôm nay, tôi đã có cảm giác trong giây lát rằng "ý tưởng và câu chuyện này đã hoàn toàn bị lu mờ." Khi một công ty lớn đưa ra quyết định, rất dễ dàng che lấp sự sáng tạo, thời điểm và thậm chí cả sự hiện diện của một công ty khởi nghiệp.
Do đó, trong thời đại này, điều thực sự quan trọng không phải là giữ kín ý tưởng và từ từ hoàn thiện chúng, mà là liệu bạn có thể nhanh chóng tạo ra một sản phẩm khả thi tối thiểu (MVP) và đưa nó vào thực tế để kiểm chứng hay không.
Nhưng rồi tôi nghĩ, đã bắt đầu rồi thì cứ tiếp tục thôi.
MeetLingo chưa bao giờ chỉ giới hạn ở các cuộc họp. Về cơ bản, nó là một hệ thống chuyển đổi giọng nói thành giọng nói có độ trễ thấp, sẽ hỗ trợ nhiều ngôn ngữ hơn trong tương lai và có thể được sử dụng trong bất kỳ tình huống thoại thời gian thực nào. Điểm khác biệt duy nhất là tôi đã chọn biến nó thành mã nguồn mở và ưu tiên phát triển cục bộ, thay vì một tính năng bị khóa vào nền tảng.
Giờ hệ thống đã hoạt động, chúng ta hãy dần tối ưu hóa nó để làm cho nó nhanh hơn, ổn định hơn và dễ sử dụng hơn.
Link GitHub và website của tôi ở phần bình luận. Mời các bạn xem qua và đừng quên đánh dấu sao nếu thích nhé!

Google AI
@GoogleAI
12-13
Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities:
— Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

Github:
github.com/0x0funky/MeetLingo…
Trang web:
meetlingo.vercel.app
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ




