Đối thoại với Nexa AI: Hai sinh viên Stanford sinh năm 1995 xây dựng mô hình nhỏ nhanh gấp 4 lần GPT-4o, chỉ ra "phiên bản cuối cùng của Ôm Mặt"

avatar
36kr
08-27
Bài viết này được dịch máy
Xem bản gốc

Nó nhanh hơn GPT-4o mạnh nhất của OpenAI, có khả năng gọi chức năng tương tự như GPT-4, nhỏ hơn N lần và chỉ cần một thẻ để suy luận.

Đây chính là “cú sốc” mà Nexa AI mang đến cho mọi người khi ra mắt.

Bốn tháng trước, mô hình nhỏ Octopus v2 có 500 triệu thông số do Nexa AI phát triển đã thu hút sự chú ý rộng rãi trong vòng tròn AI ở Thung lũng Silicon. Công nghệ Mã thông báo chức năng mà họ phát triển có thể đạt được tốc độ suy luận tuyệt vời, nhanh hơn 4 lần so với GPT-4o và nhanh hơn 140 lần so với giải pháp RAG. Nó cũng có hiệu suất tương đương với GPT-4, với độ chính xác của lệnh gọi hàm trên 98%.

Ra mắt Product Hunt, Octopus v2 đã giành giải "Sản phẩm số 1 trong ngày" và tích lũy được 12.000 lần trong tháng Ôm Mặt được phát hành. Nó đã được nhất trí chứng nhận bởi Hugging Face CTO Julien Chaumond, trưởng nhóm kỹ thuật Philipp Schmid, người sáng lập Fig AI Brett Adcock và các cơ quan chức năng khác trong ngành AI.

Nexa AI được đồng sáng lập bởi hai cựu sinh viên trẻ Stanford sinh năm 1995 là Alex Chen và Zack Li và hiện có 8 nhân viên toàn thời gian. Charles (Chuck) Eesley, giáo sư Khoa Khoa học và Kỹ thuật Quản lý tại Đại học Stanford và phó giám đốc Dự án Đầu tư rủi ro Công nghệ, và Diyi Yang, giáo sư của Nhóm NLP tại Đại học Stanford và nhà nghiên cứu Sloan, đóng vai trò là cố vấn của công ty.

Được biết, họ đã ký kết thành công với hơn 10 khách hàng doanh nghiệp hàng đầu trong lĩnh vực điện tử 3C, ô tô, an ninh mạng, tiêu dùng thời trang và các lĩnh vực khác trong một thời gian ngắn. Nó phục vụ hơn 1.000 người dùng đã đăng ký và gần đây đã hoàn thành vòng tài trợ ban đầu vượt quá 10 triệu USD.

Chưa đầy một tháng sau khi phát hành Octopus v2, Nexa AI đã phát hành Octopus v3, mẫu AI đầu tiên có dưới 1 tỷ tham số có thể đạt được khả năng đa phương thức.

Trong khi duy trì độ chính xác của lệnh gọi chức năng tương đương với GPT-4V và GPT-4, nó có thể chạy hiệu quả trên nhiều thiết bị biên khác nhau như Raspberry Pi, hỗ trợ nhập văn bản và hình ảnh, đồng thời có thể hiểu tiếng Trung và tiếng Anh. Sau đó, các sản phẩm mới như Octo-planner, một mô hình tham số 3,8 tỷ có thể thực hiện nhiệm vụ truy vấn nhiều bước trong các lĩnh vực kiến ​​thức khác nhau, đã được ra mắt.

Tiếp theo, Nexa AI mở rộng “tham vọng” của mình sang toàn bộ thị trường mô hình thiết bị đầu cuối.

Gần đây, nó đã ra mắt nền tảng phát triển AI toàn diện đầu tiên "Model Hub". Cốt lõi là thư viện mô hình AI phong phú được thiết kế và tối ưu hóa để triển khai cục bộ. Nó bao gồm nhiều mô hình tiên tiến như sê-ri Octopus tự phát triển, Llama 3.1, Gemma 2, Stable Diffusion và Whisper. Hoạt động hiệu quả trên nhiều thiết bị và không yêu cầu kết nối Internet hoặc phí API.

Cùng với thư viện mô hình, Model Hub còn cung cấp một bộ SDK mã nguồn mở toàn diện , hỗ trợ các nhà phát triển triển khai các mô hình cục bộ cũng như tinh chỉnh và tùy chỉnh chúng theo nhu cầu cá nhân, giúp nó linh hoạt hơn. Ngoài ra còn có lượng lớn các ví dụ thực tế để giúp người dùng bắt đầu nhanh chóng và cộng đồng nhà phát triển cũng đã được thành lập.

Tức là Ôm Mặt của mô hình mặt cuối.

“Điều chúng tôi thực sự muốn xây dựng là phiên bản ôm mặt trên thiết bị.” Alex Chen nói với Silicon Star. Bằng cách tích hợp các mô hình, công cụ, tài nguyên và cộng đồng, họ đang cố gắng xây dựng một hệ sinh thái AI hoàn chỉnh.

Mới đây, Silicon Star cũng trò chuyện với Alex Chen và Zack Li, hai người đồng sáng lập Nexa AI, về suy nghĩ của họ về end-side AI.

Sau đây là bản ghi lại cuộc trò chuyện:

Từ khuôn viên trường Stanford đến mô hình kinh doanh nhỏ cuối cùng

Ngôi sao Silicon: Xin hãy giới thiệu Alex và Zack với mọi người.

Alex Chen: Tôi là Alex, hiện là Đồng sáng lập và Giám đốc điều hành của Nexa AI. Trước khi thành lập công ty, tôi đã học lấy bằng Tiến sĩ tại Đại học Stanford và nghiên cứu về AI và Toán học. Zack và tôi là cựu sinh viên Tongji và đã biết nhau khoảng 10 năm. Chúng tôi đã hợp tác trong nhiều nghiên cứu và công việc trước đây. Ví dụ, cả hai chúng tôi đều từng là chủ tịch Hiệp hội Doanh nhân Trung Quốc Stanford và trong thời gian đó chúng tôi đã thực hiện nhiều ý tưởng kinh doanh, nhưng Nexa là lần đầu tiên chúng tôi chính thức thành lập một công ty khởi nghiệp để thực hiện điều đó.

Zack Li: Tôi là Zack, Đồng sáng lập và CTO của Nexa AI. Tôi đã làm việc trong ngành này kể từ khi tốt nghiệp Stanford. Lần đầu tiên tôi làm việc về Echo và Alexa tại Amazon Lab126, sau đó đến Google để làm việc trên Google Assistant và Google Glass, vì vậy tôi đã tích lũy được 4 năm kinh nghiệm trong ngành. trên Nexa AI với Alex năm ngoái. Bởi vì hướng đi mà chúng tôi đang thực hiện hiện nay rất phù hợp với nghiên cứu của Alex và kinh nghiệm làm việc trước đây của tôi, nên chúng tôi có lợi thế tương đối lớn trong việc đào tạo mô hình, cung cấp cho khách hàng và triển khai mô hình.

Silicon Star: Quá trình từ khuôn viên Stanford đến khởi nghiệp kinh doanh hiện nay như thế nào, đặc biệt là khi anh chọn hướng đi mô hình nhỏ cuối cùng?

Alex Chen: Ý tưởng khởi nghiệp lần đầu tiên nảy sinh vì cả hai chúng tôi đều tham gia Hiệp hội Doanh nhân Trung Quốc Stanford. Nó trang trọng hơn nhiều so với các hiệp hội sinh viên thông thường. Hàng năm, nhiều cựu sinh viên Stanford rời tổ chức này và bắt đầu công việc kinh doanh của riêng họ. Ví dụ: Yin Le, đối tác của ZhenFund, cựu đối tác Jinshajiang Zhang Yutong, Giám đốc điều hành Momovovo Li Zhifei, người sáng lập Xiaohongshu Mao Wenchao, v.v. Sau khi tham gia tổ chức này, chúng tôi sẽ làm quen với nhiều doanh nhân và nhà đầu tư hàng ngày và chúng tôi cũng sẽ tổ chức các hoạt động kinh doanh ở Vùng Vịnh. Trong khoảng thời gian này, tôi đã tìm hiểu về tinh thần kinh doanh là như thế nào và tôi bắt đầu có xu hướng tự mình làm điều gì đó hơn.

Đây là giai đoạn phôi thai sớm nhất. Khi sự hiểu biết của chúng tôi về công nghệ và tinh thần kinh doanh của chúng tôi dần dần sâu sắc hơn, chúng tôi sẽ thực hiện một số dự án phụ có liên quan chặt chẽ đến vòng phát triển AI này. Trên thực tế, chúng tôi đã nhận thấy một số xu hướng trong AI từ rất sớm. Ví dụ: khi GPT-3 lần đầu tiên ra mắt, Jasper đã sử dụng API GPT-3 để đạt được doanh thu 50 triệu USD. Vì vậy, tôi tập trung vào AI sáng tạo. Ý tưởng ban đầu thiên về ứng dụng hơn, nghĩa là chúng ta nên bỏ qua công nghệ cốt lõi và sử dụng các công nghệ hiện có để tạo ra một số sản phẩm tốt, chẳng hạn như trực tiếp sản xuất sản phẩm bằng cách gọi API của GPT-3 hoặc một số mô hình mã nguồn mở của Stable Diffusion.

Nhưng sau này, suy nghĩ của chúng tôi đã thay đổi một chút, điều này cũng bao gồm cả lý do tại sao chúng tôi chọn phát triển AI phía thiết bị.

Vào thời điểm đó, chúng tôi đã tiến hành phân tích toàn bộ thị trường AI tổng quát. Trước hết, hiện nay có rất nhiều công ty định hướng ứng dụng, đối với các ứng dụng như tạo email, tiếp thị hoặc phỏng vấn AI, bạn có thể tìm thấy hàng trăm sản phẩm tương tự trong mỗi danh mục dọc. Nó trở nên cồng kềnh và có thể không mang lại lợi nhuận lâu dài vì có quá nhiều đối thủ cạnh tranh và ít rào cản kỹ thuật.

Đây là nhận thức của chúng tôi về thị trường. Sự cạnh tranh rất khốc liệt này cũng là lý do chính thúc đẩy chúng tôi phải thay đổi lộ trình của mình và chúng tôi hy vọng sẽ xem xét một số công việc có nhiều rào cản kỹ thuật hơn. Ngoài ra, vào thời điểm đó, Zack đã làm việc về thiết kế AI được 4 năm và đã tích lũy được nhận xét sâu sắc về ngành. Chúng tôi đã phân tích lĩnh vực này và nhận thấy rằng khi mọi người theo đuổi mô hình đám mây lớn hơn, thực tế sẽ có những cơ hội rất tốt về phía khách hàng.

Hai xu hướng đã được xem xét vào thời điểm đó:

Trước hết, khi thuật toán tiếp tục được cải thiện, ngày càng có nhiều hàm mô hình lớn thực sự có thể được hoàn thành thông qua các mô hình nhỏ. Ví dụ: GPT-3 có thể sớm nhất có thông số 175B, nhưng hiện tại mẫu mới nhất với 7B về cơ bản có thể bắt kịp GPT-3 về nhiều mặt. Các mô hình riêng của Open AI thực sự đang ngày càng nhỏ hơn. Theo như chúng tôi biết, GPT-3.5 nhỏ hơn GPT-3. Xu hướng này là kết quả của hoàn thiện hơn nữa trong việc sàng lọc thuật toán và nén dữ liệu .

Thứ hai, khả năng tính toán của phía thiết bị đầu cuối cũng không ngừng được cải thiện. Ví dụ: khi chip của máy tính và điện thoại di động tiếp tục phát triển, chúng có thể hỗ trợ một số mẫu lớn hơn để triển khai cục bộ, vì vậy đây là hai xu hướng chung.

Sau đó chúng tôi cũng đã thực hiện một số nghiên cứu thực tế. Vào tháng 1 năm nay, mọi người trong công ty đã đến Las Vegas để tham gia CES. Tại triển lãm CES , nhìn lên nhiều ví dụ về triển khai mô hình AI tại địa phương. Ví dụ: Qualcomm đã cố gắng triển khai các mô hình trên nhiều chip phía thiết bị đầu cuối khác nhau.

Ngôi sao Silicon: Vì vậy, việc cải tiến thuật toán và tăng tỷ lệ băm khiến bạn nghĩ rằng có thể tạo ra các mô hình nhỏ. Tôi đã đến CES để tận mắt xem tình hình thị trường và cuối cùng quyết định chuyển đến hướng sang AI đầu cuối.

Alex Chen: Vâng.

Mô hình nhỏ có thể giải quyết 99% vấn đề

Ngôi sao Silicon: Bạn có nghĩ rằng luật mở rộng quy mô hiện nay đã lỗi thời?

Alex Chen: Luật mở rộng quy mô vẫn chưa lỗi thời, tôi tin rằng nó vẫn đúng với hầu hết mọi người.

Ngôi sao Silicon: So với các mẫu lớn, cơ hội cho mẫu nhỏ là gì?

Alex Chen: Tôi nghĩ ở đây có một câu hỏi hay, đó là quy luật chia tỷ lệ vừa được đề cập. Khi chúng ta đánh giá quy luật mở rộng của một mô hình, mô hình càng lớn thì khả năng toàn diện của nó càng mạnh. Nhưng đây là sự cải thiện năng lực toàn diện. Lấy chỉ báo MMLU làm ví dụ, một mô hình lớn có thể có khả năng mạnh mẽ ở các môn MMLU khác nhau, chẳng hạn như tiếng Trung, toán và tiếng Anh. Nhưng trong nhiều trường hợp, bạn không cần phải mạnh ở mọi cấp độ mà chỉ cần nổi bật ở một lĩnh vực cụ thể. Công ty chúng tôi sẽ để các mô hình nhỏ tập trung vào một số lĩnh vực cụ thể nhất định, chẳng hạn như đặc biệt giỏi toán hoặc luật. Điều này là đủ đối với những người trong lĩnh vực toán học và luật. Anh ấy không cần một mô hình đặc biệt lớn để hoàn thành công việc của mình.

Một điểm nữa là khi chúng ta sử dụng luật chia tỷ lệ để liên tục vượt qua ranh giới của mô hình, trên thực tế, 1% vấn đề đặc biệt khó khăn còn lại mà bạn muốn giải quyết có thể không phải đều gặp phải trong cuộc sống hàng ngày. Ví dụ: nếu tôi sử dụng GPT-4 với hàng nghìn tỷ tham số để trả lời "1+1=2", câu hỏi này có thể được trả lời rất tốt bằng GPT-2, nhưng các tham số giữa hai tham số này có thể khác nhau từ hàng nghìn đến 10.000 lần. Câu trả lời tương tự có thể được đưa ra bởi hai mô hình hoàn toàn trái ngược nhau, khi đó mô hình nhỏ sẽ tốt hơn đáng kể so với mô hình lớn về tốc độ và mức tiêu thụ điện năng.

Tóm lại, tôi nghĩ lợi thế của mô hình nhỏ là gì? Trước hết, nó nhanh hơn và tiết kiệm điện hơn. Đồng thời, việc triển khai nó ở phía máy khách về cơ bản là hoàn toàn miễn phí vì tỷ lệ băm cục bộ là đủ. Điều quan trọng hơn là nó hoàn toàn đảm bảo quyền riêng tư cá nhân. Ví dụ: chúng tôi có một khách hàng phần mềm lớn. Ứng dụng của họ giúp mọi người xử lý một số thẻ căn cước, bao gồm thẻ căn cước, bằng lái xe và các thông tin hình ảnh khác. Loại việc này không thể được thực hiện thông qua API đám mây vì nó liên quan đến quyền riêng tư, do đó, mô hình cục bộ phải được sử dụng để triển khai quy trình này.

Ngôi sao Silicon: Điều gì tạo nên một mô hình nhỏ hữu ích?

Alex Chen: Thứ nhất, nó phải nhanh, thứ hai, nó phải sánh ngang với các mô hình lớn trong một số lĩnh vực mà người dùng quan tâm, và thứ ba, nó phải được triển khai cục bộ hoàn toàn và dễ dàng, đảm bảo quyền riêng tư và với chi phí rất thấp.

Mã thông báo chức năng giải quyết vấn đề gọi hàm mô hình nhỏ và "đánh bại" GPT-4o

Ngôi sao Silicon: Toàn bộ khuôn khổ sản phẩm của NEXA hiện tại như thế nào?

Zack Li: Hãy để tôi trả lời câu hỏi này. Trước hết, khách hàng của chúng tôi bao gồm các nhà phát triển và doanh nghiệp lớn. Đối với khách hàng doanh nghiệp, chúng tôi cung cấp giải pháp toàn diện. Ví dụ: lấy một công ty thương mại điện tử làm ví dụ, yêu cầu rõ ràng mà họ đưa ra là tự động hóa việc phát hành email cho những người có ảnh hưởng để hợp tác kinh doanh tiềm năng. Sau đó, mô hình của chúng tôi có thể đáp ứng nhu cầu này và giúp họ triển khai nó thông qua SDK hỗ trợ, sau đó cung cấp một sản phẩm có thể sử dụng được để thêm vào quy trình làm việc của họ. Tuy nhiên, sản phẩm của chúng tôi rất linh hoạt nên yêu cầu tùy chỉnh tương đối ít.

Đối với các nhà phát triển, họ có thể truy cập Trung tâm mô hình của chúng tôi để tìm mô hình họ muốn, chẳng hạn như cho các kịch bản thương mại điện tử hoặc kịch bản du lịch, sau đó chạy mô hình đó cục bộ thông qua SDK của chúng tôi. Ngoài việc hỗ trợ Octopus, chúng tôi còn hỗ trợ một số mô hình mã mã nguồn mở tiêu chuẩn và cổ điển hơn, chẳng hạn như sê-ri Gemma, sê-ri Phi, v.v.

Alex Chen: Các kịch bản áp dụng của chúng tôi đều là các bài toán ngoại trừ 1% các bài toán đặc biệt khó mà các mô hình lớn hiện không thể giải được như vừa đề cập. Ví dụ như việc đồng hành về mặt tình cảm, giúp bạn viết email, đánh bóng bài viết,… đều có thể được hoàn thành thông qua một mô hình nhỏ được triển khai tại địa phương. Tất cả các trường hợp sử dụng mô hình ngôn ngữ không có Hệ số cao nhưng về cơ bản có thể đáp ứng được cuộc sống hàng ngày của mọi người đều là những thứ mà sản phẩm của chúng tôi có thể mang đến cho mọi người sử dụng.

Ngoài các chức năng mạnh mẽ mà chúng tôi có thể cung cấp, điểm nổi bật lớn nhất của mô hình Octopus là nó có khả năng gọi hàm mạnh mẽ.

Silicon Star: Đây là điều tôi muốn hỏi tiếp theo, những ưu điểm kỹ thuật cốt lõi của NEXA là gì?

Alex Chen: Đúng, tính năng độc đáo của chúng tôi là chúng tôi có thể sử dụng một mô hình nhỏ được triển khai cục bộ để cạnh tranh với chức năng gọi của một mô hình lớn. Nó chuyển đổi ngôn ngữ tự nhiên của người dùng thành các lệnh thực thi. Ví dụ: nếu bạn muốn lên Amazon để mua điện thoại di động Samsung, bạn có thể nhập trực tiếp yêu cầu mua hàng của mình vào hộp thoại, Amazon sẽ tự động mở và nhập mô tả về điện thoại di động Samsung, giúp bạn tiết kiệm lượng lớn các quá trình giao diện hoạt động đồ họa. Tương đương với Octopus, có thể chuyển đổi nhiều tương tác hoạt động đồ họa thành tương tác ngôn ngữ tự nhiên.

Ngôi sao Silicon: Bài viết của bạn đề xuất một khái niệm Mã thông báo chức năng sáng tạo. Bạn có thể giải thích nó không? Và nó tối ưu hóa quá trình suy luận AI như thế nào?

Zack Li: Trong phương pháp trước đây, chẳng hạn như dựa trên công nghệ RAG (thế hệ tăng cường truy xuất), khi có sự cố xảy ra, thông tin liên quan cần được truy xuất từ ​​tài liệu hoặc cơ sở dữ liệu API, sau đó thông tin này được cung cấp dưới dạng bối cảnh cho mô hình lớn cho ra quyết định. Quá trình này lần đầu tiên tốn nhiều thời gian để truy xuất thông tin và yêu cầu xử lý lượng lớn mã thông báo ngữ nghĩa. Do cửa sổ ngữ cảnh quá dài nên thời gian suy luận rất dài, đặc biệt trên các thiết bị có tỷ lệ băm hạn chế, đồng thời độ chính xác của mô hình và tốc độ phản hồi bị hạn chế.

Giải pháp của chúng tôi là xuất trực tiếp thông qua mô hình đầu cuối. Khái niệm Mã thông báo chức năng được giới thiệu lần đầu tiên, sử dụng một mã thông báo để thể hiện toàn bộ thông tin chức năng, bao gồm tên chức năng, tham số và tài liệu, giảm 95% độ dài ngữ cảnh. Khi người dùng nhập hướng dẫn bằng ngôn ngữ tự nhiên, hệ thống có thể loại bỏ các bước truy xuất phức tạp, nhanh chóng xác định các điểm chính nhiệm vụ và kích hoạt Mã thông báo chức năng tương ứng, từ đó trực tiếp tạo ra đầu ra cần thiết hoặc thực hiện các lệnh gọi chức năng cụ thể.

Ở lớp đầu ra, vì Mã thông báo chức năng thay thế mô tả chức năng hoàn chỉnh nên về cơ bản, đầu ra có thể được kiểm soát trong vòng 10 mã thông báo nên ngắn gọn hơn. Làm như vậy có thể tiết kiệm đáng kể tài nguyên máy tính và không gian ngữ cảnh, đồng thời tăng tốc độ xử lý lên đáng kể. Nó đặc biệt thích hợp cho các thiết bị di động hoặc thiết bị điện toán biên đòi hỏi phản hồi nhanh.

Silicon Star: Nó hoạt động như thế nào sau khi xác minh thực tế?

Zack Li: GPT-4o là mô hình tham số nghìn tỷ cấp rất lớn, sử dụng nhiều Cụm GPU để suy luận, nhưng chúng tôi chỉ sử dụng một thẻ A100 duy nhất để so sánh. Ngay cả trong điều kiện phần cứng cực kỳ bất công này, mẫu Octopus v2 của chúng tôi vẫn nhanh hơn GPT-4o 4 lần.

Silicon Star: Octopus v2 đã có phản ứng rất mạnh mẽ ở X vào thời điểm đó. Tôi thấy rằng bạn cũng có Octo-net, Octopus v3 và Octo-planner. Những mô hình này có thế mạnh riêng hay chúng là sê-ri sự lặp lại?

Zack Li: v2, v3 cho người lập kế hoạch là sê-ri các lần lặp lại, trong đó v3 có khả năng đa phương thức và người lập kế hoạch có khả năng lập kế hoạch nhiều bước. Octo-net tương đương với một nhánh và hỗ trợ cộng tác giữa thiết bị và đám mây.

Silicon Star: Khả năng hiện tại của mẫu máy tiên tiến nhất của bạn là gì?

Zach Li: Mô hình v3 của chúng tôi hiện là mô hình mới nhất dành cho doanh nghiệp và có thể hỗ trợ đa phương thức theo thông số 1B. Có thể có một số công ty đầu cuối xuất sắc đang dần nổi lên trong và ngoài nước, nhưng hiện tại không có đối thủ cạnh tranh nào dưới 1B hoạt động đa phương thức và có thể đạt được độ chính xác khi gọi chức năng của chúng tôi và chúng tôi cũng chưa thấy công ty nào dưới 2B.

Tạo “phiên bản ôm mặt phía thiết bị”

Ngôi sao Silicon: Trên thực tế, ngoài các công ty khởi nghiệp, nhiều gã khổng lồ như OpenAI, Google và Meta cũng đã bắt đầu tung ra các mô hình nhỏ. Bạn có cảm thấy bị đe dọa không?

Zack Li: Tất nhiên tôi có thể cảm nhận được sự cạnh tranh rất khốc liệt. Nhưng trước tiên, chúng ta lấy một công cụ sắc bén, đây là lệnh gọi hàm khó nhất trong mô hình thử nghiệm cuối. Đồng thời, chúng tôi có thể tiếp tục kết hợp với Model Hub để khuyến khích nhiều nhà phát triển hơn tham gia cùng chúng tôi, tương đương với việc đi theo con đường Ôm Mặt. Vì vậy, mặc dù mô hình phía khách hàng đã dần bắt đầu tham gia, chúng tôi phải xây dựng một mô hình tốt và một nền tảng tốt để cho phép nhiều nhà phát triển hơn sử dụng các mô hình này. Đây là một trong những điểm khác biệt của chúng tôi.

Alex Chen: Thực ra, thứ chúng tôi thực sự muốn tạo ra là phiên bản Ôm Mặt trên thiết bị. Hugging Face là một cộng đồng nghiên cứu AI dành cho các nhà phát triển đám mây. Nó có nhiều khung sử dụng và tìm kiếm mô hình dựa trên GPU Python và NVIDIA, nhưng tất cả đều được cung cấp cho các nhà phát triển phía máy chủ. Sự khác biệt của chúng tôi là nếu chúng tôi muốn các mô hình được triển khai cục bộ thì các định dạng tệp và phần mềm hỗ trợ cần thiết để triển khai các mô hình này sẽ khác nhau. Ví dụ: Ôm Mặt sử dụng Python, trong khi chúng tôi sử dụng C hoặc C++. Đây là những điểm khác biệt cốt lõi.

Bạn thấy rằng chúng tôi sẽ có một số thư viện phần mềm như SDK, có mô hình Octopus do riêng chúng tôi phát triển và cũng sẽ hỗ trợ triển khai cục bộ các mô hình nhỏ khác của Microsoft và Google. Đây là cách chúng tôi nghĩ về toàn bộ vấn đề: Trên thực tế, nếu bạn nhìn vào đám mây, hai công ty có giá trị điển hình là OpenAI và Hugging Face. Chúng tôi thực sự giống như sự kết hợp giữa OpenAI và Ôm mặt ở phía khách hàng. Một mặt, chúng tôi đang tự mình tạo ra các mô hình thử nghiệm phía cuối và mặt khác, chúng tôi cũng hy vọng có thể sử dụng nền tảng này để hỗ trợ thêm cho mọi người sử dụng các mô hình phía cuối.

Do đó, mô hình kinh doanh trong tương lai của chúng tôi sẽ tập trung nhiều hơn vào việc duy trì cộng đồng AI trên thiết bị này để mang lại thu nhập dựa trên đăng ký cho một số nhà phát triển trên thiết bị. Ngoài ra, chúng tôi sẽ cung cấp một số dịch vụ doanh nghiệp cho các doanh nghiệp đằng sau những nhà phát triển này.

Ngôi sao Silicon: Trên nền tảng của bạn, tôi không chỉ có thể sử dụng Octopus mà còn thấy nhiều AI đầu cuối do các nhà phát triển hoặc công ty riêng lẻ phát hành.

Zack Li: Vâng. Chúng tôi mới bắt đầu tích lũy nền tảng. Chúng tôi đã thử nghiệm vào tháng 5 và có khoảng 1.000 nhà phát triển. Sau đó, chúng tôi tiếp tục hoàn thiện nội bộ và chuẩn bị ra mắt. Chúng tôi cũng hy vọng có thể giới thiệu sản phẩm này đến nhiều người hơn và cung cấp link thử nghiệm để xem phản hồi của các bạn.

Model Hub ra mắt sẽ trở thành trang web chính của NEXA AI. Sản phẩm chính là một nền tảng cho phép bạn tìm thấy các mô hình đầu cuối mà bạn cần. Những công trình nghiên cứu trước đây có thể chứng minh khả năng nghiên cứu và phát triển độc lập của chúng tôi, đồng thời mang lại cơ hội gia nhập doanh nghiệp.

Bạn có thể xem các mô hình thử nghiệm cuối cùng của nhiều công ty khác nhau trong Model Hub. Vì chúng tôi hiểu rõ hơn về phía máy khách nên chúng tôi tập trung vào các định dạng như GGUF và ONNX thường được sử dụng ở phía máy khách. Ví dụ: Meta Llama3.1-8b, chúng ta có thể định lượng theo các độ chính xác khác nhau, chẳng hạn như int4 và int8. Mô hình nén này đặc biệt phù hợp để chạy ở phía máy khách, không giống như Pytorch và Python chạy trong hoàn cảnh đám mây.

GPU tiêu dùng có RAM tối đa 24G và các nhà phát triển không thể chạy cục bộ các mô hình kích thước đầy đủ. Chúng tôi có thể giúp nhà xuất bản nén và lượng tử hóa hàng loạt. Sau đó, chúng tôi cũng có các công cụ SDK cho phép người dùng dễ dàng sử dụng các mô hình phương thức khác nhau trên máy tính xách tay hoặc điện thoại di động của họ, đồng thời cung cấp hiển thị giao diện người dùng, hoàn toàn dựa vào tỷ lệ băm cục bộ và rất nhanh.

Cũng giống như Ôm Mặt, lửa là lửa trong gói máy biến áp. Bạn không chỉ có thể tìm thấy các mô hình ở đây mà còn có thể chạy chúng và thực hiện phát triển lần. Đây chính là cốt lõi của khả năng giữ chân người dùng của nó, phải không? Chúng tôi thực sự đã làm được điều này.

Khởi nghiệp phụ thuộc vào sản phẩm.

Ngôi sao Silicon: Câu hỏi tiếp theo có thể đã được thảo luận trước đó. Lúc này nhà đầu tư sẽ hỏi tại sao, vậy đối với bạn, đâu là điểm tin cậy để khách hàng mục tiêu của bạn lựa chọn NEXA thay vì các đối thủ khác?

Zack Li: Điểm đáng tin cậy đầu tiên là ưu điểm của mô hình. Độ chính xác khi gọi chức năng của mô hình của chúng tôi rất cao và kích thước rất nhẹ. Thứ hai là lợi thế triển khai. Chúng tôi có thể tùy chỉnh các giải pháp tăng tốc khác nhau tùy theo yêu cầu phần cứng, nền tảng điều hành, bộ nhớ và chi phí hoạt động khác nhau của người dùng. Nghĩa là, không chỉ mô hình của chúng tôi tốt hơn mô hình của những người khác, mà chúng tôi còn có một khuôn khổ có thể hỗ trợ họ triển khai mô hình này tốt hơn.

Ngôi sao Silicon: Những lợi thế này có giữ được khi đối diện OpenAI hay Google không?

Zack Li: Tôi nghĩ OpenAI sẽ không trực tiếp chạm tới lĩnh vực mô hình thử nghiệm cuối trong một thời gian dài. GPT-4o mini của nó vẫn là mô hình đám mây. Google có thể làm được điều đó Tất nhiên, Google có lợi thế về tài năng và thiết bị cũng như hệ sinh thái của riêng mình. Nhưng thật khó để tưởng tượng rằng nó sẽ chăm sóc khách hàng bên ngoài hệ sinh thái Android, đặc biệt là trong lĩnh vực phần cứng đầu cuối. Nó sẽ không làm những việc như Model Hub ngoại trừ những khách hàng bên ngoài hệ sinh thái Pixel của chính nó.

Ngôi sao Silicon: Bạn có thể chia sẻ tiến độ sản phẩm mới nhất và hướng tối ưu hóa tiếp theo không?

Zack Li: Ngoài Model Hub và SDK đã đề cập trước đó, chúng tôi còn có sê-ri công việc nghiên cứu tiếp theo và một mô hình nén hỗ trợ xử lý văn bản dài cũng đang được phát triển. Trong tương lai, chúng tôi sẽ cung cấp dịch vụ cho các kịch bản khác nhau. Trên thực tế, có nhiều kịch bản ở phía máy khách. Cuộc gọi chức năng là một kịch bản và có các khả năng khác như khả năng trả lời câu hỏi, khả năng đa phương thức như hiểu hình ảnh, xử lý âm thanh, v.v. Những hướng này đều là những lĩnh vực chính có liên quan.

Silicon Star: Là một công ty khởi nghiệp về AI phía thiết bị, thách thức của bạn là gì?

Zack Li: Bao gồm nhưng không giới hạn ở một số nhà sản xuất lớn. Họ có thể tự tạo ra các mô hình cuối cùng của riêng mình. Đặc biệt nếu họ có khả năng phát triển các mô hình lớn cấp nghìn tỷ, họ có thể tái sử dụng rất nhiều kinh nghiệm thông qua việc chắt lọc hoặc cắt tỉa. Nhưng chúng tôi có những hiểu biết sâu sắc và hiểu biết riêng về lĩnh vực này khi tạo ra các mô hình cuối cùng, vì vậy tôi nghĩ mỗi mô hình đều có giá trị riêng.

Sau đó, có một số người chơi cộng đồng hiện có. Ôm Mặt là một ví dụ điển hình. Nó cũng sẽ là một thử thách đối với chúng ta nếu nó cần được kiểm nghiệm cuối cùng. Nhưng hiện tại, có vẻ như toàn bộ hệ sinh thái của Hugging Face, bao gồm tất cả các kiến ​​trúc trước đây, đều là kiến ​​trúc đám mây và các dịch vụ của nó cũng là dịch vụ đám mây. Vì thế tôi nghĩ việc biến hình chắc chắn sẽ đau đớn hơn. Nếu nó được thực hiện như một dự án, động lượng và tốc độ của nó sẽ không nhanh như vậy.

Ngôi sao Silicon: Bạn kết hợp mô hình phía thiết bị với cộng đồng và còn khá sớm trong việc đưa ra thị trường. Bạn đã thực hiện bất kỳ hoạt động quảng bá hoạt động ngoại tuyến nào của nhà phát triển chưa?

Zack Li: Alex và tôi hiện cần thực hiện lượng lớn khóa đào tạo về phát triển mô hình và một số công việc liên quan đến cơ sở hạ tầng. Các bạn cùng lớp về tiếp thị và sản phẩm của chúng tôi chịu trách nhiệm về các hoạt động này, bao gồm cả việc chúng tôi đã tích lũy được rất nhiều nguồn lực ở Vùng Vịnh. những năm tháng. Vào ngày 25 tháng 8, Nexa sẽ cùng tổ chức Hackathon tại Stanford với Hugging Face, StartX, Stanford Research Park, Groq và AgentOps. Đây sẽ là lần đầu tiên chúng tôi thực hiện ngoại tuyến.

Super AI Agent Hackathon do Nexa AI tổ chức. Nguồn ảnh: NEXA AI

Ngôi sao Silicon: Hai câu hỏi cuối cùng Sau nhiều năm ở Thung lũng Silicon, có công ty hoặc người nào mà bạn rất ngưỡng mộ không?

Zack Li: Tôi vẫn thích Elon Musk hơn. Một trong những từ của anh ấy là "Cứng rắn và Bình tĩnh", nghĩa là anh ấy có yêu cầu cao đối với mọi việc và có thể giữ bình tĩnh khi đối mặt với những khó khăn lớn. Tôi cũng đang nỗ lực cải thiện bản thân theo hướng này. Rồi bạn nghĩ, anh ta có thể xử lý nhiều công ty cùng lúc và mỗi công ty có một phương pháp nhất định để đối diện những thách thức khác nhau. Tôi nghĩ anh ấy có tầm nhìn dài hạn và khả năng thực thi mạnh mẽ.

Nhưng nếu anh ấy thực tế hơn, tôi thực sự thích Lei Jun hơn. Bởi vì tôi đến từ Hồ Bắc, còn Lei Jun đến từ Tiên Đào, Hồ Bắc. Anh ấy rất siêng năng, dễ gần và có thể suy nghĩ về nhiều vấn đề bằng chính đôi tay của mình. Anh ấy có tính khí rất điển hình của một nhà phát triển. Dù là giám đốc điều hành, nhà đầu tư hay doanh nhân, anh ấy đều rất giỏi.

Ngôi sao Silicon: Cảm giác lớn nhất của bạn kể từ khi bắt đầu kinh doanh là gì?

Zack Li: Tôi nghĩ khi bắt đầu kinh doanh, sản phẩm mới là điều quan trọng. Thị trường sẽ cho tôi những phản hồi công bằng và bình đẳng nhất, vì vậy hoàn thành công việc là điều quan trọng nhất. Có mục tiêu dài hạn và kiên trì làm những việc khó nhưng đúng đắn. Ví dụ, một số công việc ban đầu của công ty có thể rất thiên về sản phẩm mà không có nhiều đổi mới cơ bản. Lý do cơ bản khiến chúng tôi đột nhiên có lưu lượng truy cập và động lực lớn như vậy là vì chúng tôi đã tối ưu hóa lớp dưới cùng của mô hình bên cuối, đề xuất một phương pháp đào tạo chưa từng có và tự mình xuất bản một bài báo để đăng ký bảo hộ bằng sáng chế. Nếu không có những công nghệ này, chúng ta sẽ không thể nổi bật và đạt được tầm ảnh hưởng như hiện nay. Đối với cái gọi là công ty vỏ bọc, tôi cảm nhận sâu sắc rằng hầu như không có cách nào thoát ra khỏi vòng vây chặt chẽ, trừ khi bạn có cái nhìn sâu sắc về sản phẩm.

Silicon Star: Vậy bạn nghĩ Perplexity thuộc loại công ty nào?

Zack Li: Nó có cái nhìn sâu sắc về sản phẩm.

* Cộng đồng mô hình AI đầu cuối mới nhất của Nexa AI Mobile Hub đã được ra mắt vào ngày 22 tháng 8, với liên kết trực tiếp: https://www.nexaai.com/models .

Bài viết này xuất phát từ tài khoản công khai WeChat "Silicon Star Pro" , tác giả: Jessica, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận