Trình tạo video AI mới của Tencent cạnh tranh miễn phí với Sora của OpenAI

avatar
Decrypt
12-06
Bài viết này được dịch máy
Xem bản gốc

Trong khi OpenAI vẫn tiếp tục gợi ý về Sora sau nhiều tháng trì hoãn, Tencent lặng lẽ tung ra một mô hình đã cho thấy kết quả tương đương với các trình tạo video hàng đầu hiện tại.

Tencent đã ra mắt Hunyuan Video, một trình tạo video AI miễn phí và mã nguồn mở, được định thời chiến lược trong chiến dịch thông báo 12 ngày của OpenAI, được kỳ vọng sẽ bao gồm sự ra mắt của Sora, công cụ video rất được mong đợi của họ.

"Chúng tôi giới thiệu Hunyuan Video, một mô hình nền tảng video mã nguồn mở mới, thể hiện hiệu suất trong việc tạo video tương đương, nếu không muốn nói là vượt trội, so với các mô hình đóng nguồn hàng đầu," Tencent cho biết trong thông báo chính thức của họ.

Tập đoàn công nghệ có trụ sở tại Thâm Quyến, Trung Quốc, khẳng định mô hình của họ "vượt trội" so với Runway Gen-3, Luma 1.6 và "ba mô hình tạo video Trung Quốc có hiệu suất cao nhất" dựa trên kết quả đánh giá của con người chuyên nghiệp.

Thời điểm này không thể phù hợp hơn.

Trước khi tung ra trình tạo video của mình - ở đâu đó giữa các kỷ nguyên SDXL và Flux của các trình tạo hình ảnh mã nguồn mở - Tencent đã tung ra một trình tạo hình ảnh với tên tương tự.

HunyuanDit đã cung cấp kết quả tuyệt vời và cải thiện hiểu biết về văn bản song ngữ, nhưng nó không được áp dụng rộng rãi. Gia đình được hoàn thiện với một nhóm mô hình ngôn ngữ lớn.

Hunyuan Video sử dụng một Mô hình Ngôn ngữ Đa phương tiện Lớn chỉ có bộ giải mã làm bộ mã hóa văn bản thay vì sự kết hợp CLIP và T5-XXL thông thường được tìm thấy trong các công cụ video AI và trình tạo hình ảnh khác.

Tencent cho biết điều này giúp mô hình làm theo hướng dẫn tốt hơn, nắm bắt chi tiết hình ảnh chính xác hơn và học các nhiệm vụ mới một cách nhanh chóng mà không cần đào tạo bổ sung - ngoài ra, cấu hình chú ý nhân quả của nó nhận được một sự gia tăng từ một bộ lọc token đặc biệt giúp nó hiểu lời nhắc sâu sắc hơn so với các mô hình truyền thống.

Nó cũng viết lại lời nhắc để làm cho chúng phong phú hơn và tăng chất lượng của các bản sinh ra. Ví dụ, một lời nhắc đơn giản chỉ nói "Một người đang dắt chó đi bộ" có thể được tăng cường bằng cách bao gồm các chi tiết, cài đặt cảnh, điều kiện ánh sáng, các hiệu ứng chất lượng và chủng tộc, cùng với các yếu tố khác.

Giống như LLaMA 3 của Meta, Hunyuan được cung cấp miễn phí để sử dụng và kinh doanh cho đến khi bạn đạt 100 triệu người dùng - một ngưỡng mà hầu hết các nhà phát triển sẽ không cần phải lo lắng trong tương lai gần.

Điều bẫy? Bạn sẽ cần một máy tính mạnh với ít nhất 60GB bộ nhớ GPU để chạy mô hình 13 tỷ tham số của nó cục bộ - nghĩ về các thẻ Nvidia H800 hoặc H20. Đó là nhiều bộ nhớ hơn so với hầu hết các máy tính chơi game có tổng cộng.

Đối với những người không có siêu máy tính, các dịch vụ đám mây đã sẵn sàng tham gia.

FAL.ai, một nền tảng phương tiện tạo ra được thiết kế dành cho các nhà phát triển, đã tích hợp Hunyuan, tính phí $0,5 mỗi video. Các nhà cung cấp đám mây khác, bao gồm Replicate hoặc GoEhnance, cũng đã bắt đầu cung cấp quyền truy cập vào mô hình. Máy chủ Hunyuan Video chính thức cung cấp 150 tín dụng với $10, mỗi lần tạo video tối thiểu là 15 tín dụng.

Và, tất nhiên, người dùng có thể chạy mô hình trên GPU được thuê bằng các dịch vụ như Runpod hoặc Vast.ai.

Các bài kiểm tra sớm cho thấy Hunyuan khớp với chất lượng của những gã khổng lồ thương mại như Luma Labs Dream Machine hoặc Kling AI. Video mất khoảng 15 phút để tạo ra, tạo ra các chuỗi ảnh thực tế với chuyển động tự nhiên của con người và động vật.

Kiểm tra tiết lộ một điểm yếu hiện tại: sự nắm bắt của mô hình về lời nhắc bằng tiếng Anh có thể sắc bén hơn so với các đối thủ cạnh tranh. Tuy nhiên, việc mã nguồn mở có nghĩa là các nhà phát triển bây giờ có thể chỉnh sửa và cải thiện mô hình.

Tencent cho biết bộ mã hóa văn bản của họ đạt tỷ lệ căn chỉnh lên đến 68,5% - có nghĩa là kết quả đầu ra khớp với những gì người dùng yêu cầu - trong khi vẫn duy trì 96,4% điểm số chất lượng hình ảnh dựa trên các kiểm tra nội bộ của họ.

Mã nguồn và trọng lượng được đào tạo trước đầy đủ có sẵn để tải xuống trên GitHub Hugging Face platforms.

Được chỉnh sửa bởi Sebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận