Bạn có nghĩ rằng việc tạo nội dung GPT quá chậm không? Cuối cùng một công ty đang giải quyết vấn đề này

avatar
36kr
02-21
Bài viết này được dịch máy
Xem bản gốc

Hôm nay vừa đi làm, tôi đã tìm được việc làm mới ở một công ty ở nước ngoài.

Công ty Groq này đã ra mắt một trang chatbot, trông thô hơn ChatGPT. Trang này không có hướng dẫn và thực sự không gây được nhiều sự quan tâm.

Cho đến khi tôi xem video demo bên dưới. . .

Thật khó để tưởng tượng rằng đây là tốc độ mà AI “tạo ra” nội dung, trông giống như việc trực tiếp tìm ra câu trả lời rồi sao chép và dán nó.

Ông Siji đã hỏi GPT một câu hỏi và ông ấy có thể trả lời một số tin nhắn WeChat nếu có thời gian nhập nó. . .

Nếu quan sát kỹ video trên, chúng ta có thể thấy rằng có một thông số trong bài kiểm tra Groq thường không được hiển thị trên các trang web mô hình lớn khác-325,68 T/s.

Thông số này cũng được Groq nhấn mạnh trên trang khuyến mãi. Ý nghĩa cụ thể là mô hình lớn có thể tính toán được bao nhiêu token trong mỗi giây.

Hãy nói ngắn gọn về chức năng của token trong mô hình lớn. Trong quá trình đào tạo, suy luận và tạo mô hình lớn, văn bản sẽ được chia thành các đơn vị nhỏ nhất, cụ thể là mã thông báo. Ví dụ: nếu bạn hỏi chatgpt một câu hỏi, trước tiên chatgpt sẽ cắt các từ hoàn chỉnh của bạn thành mã thông báo và sau đó thực hiện các phép tính. Khi chatgpt trả lời, đó không phải là tất cả thông tin đầu vào cùng một lúc mà là hết mã thông báo này đến mã thông báo khác.

Cách phân đoạn văn bản chatgpt, bạn có thể tham khảo trang web phân đoạn từ của OpenAI. Ví dụ bạn nói "Mong Lão Hoàng cho mình card đồ họa 4090 để chơi Minesweeper" thì chatgpt sẽ chia thành 22 token.

https://platform.openai.com/tokenizer

Theo dữ liệu đánh giá từ ArtificialAnalysis.ai, giao diện Mixtral 8x7B do Groq cung cấp đã lập kỷ lục thông lượng mô hình lớn mới, đạt 430 Token mỗi giây.

Tất nhiên, chúng ta vẫn cần so sánh bên long để có được ý tưởng hoàn chỉnh về tốc độ của Groq. Có một bài kiểm tra trên github về tốc độ chạy của mô hình lớn 70B trên các nền tảng khác nhau. Có thể thấy rằng Groq vượt xa về tốc độ tạo mã thông báo mỗi giây và tốc độ phản hồi.

Trong thế giới võ thuật, chỉ những người nhanh nhẹn mới có thể sống sót và câu nói này cũng áp dụng cho những người mẫu cỡ lớn. Cách đây không lâu, đã có một cuộc thảo luận trên Internet về việc liệu chatgpt có đang chậm lại hay không. Một số người nói rằng OpenAI hạn chế người dùng miễn phí, tôi không biết lý do cụ thể nhưng có thể thấy rằng tốc độ tạo mô hình lớn thực sự là một điểm đau đầu đối với người dùng.

Có thể tưởng tượng rằng để cải thiện trải nghiệm người dùng, một công ty thương mại điện tử giới thiệu dịch vụ khách hàng AI Với cùng một từ, trải nghiệm của người dùng sẽ rất khác nếu khách hàng phản hồi trong vòng vài giây và sau 10 giây hoặc lâu hơn.

Những cái tương tự bao gồm phát sóng trực tiếp AI, viết AI, v.v. Trong quá trình ứng dụng các mô hình lớn, tốc độ tạo mô hình lớn phải rất quan trọng.

Nhưng trên thực tế, độ chính xác trong việc trả lời các câu hỏi của Groq thực sự đáng lo ngại. Về cơ bản, nó không nhận được câu trả lời chính xác cho một câu hỏi phức tạp hơn một chút.

Tuy nhiên, Groq không bán các mẫu lớn mà bán chip AI.

Nói một cách đơn giản, điểm họ muốn quảng cáo là “Với con chip của tôi, mô hình của bạn có thể tạo ra nội dung rất nhanh”.

Anh ta thậm chí còn trực tiếp hét lên với Jen-Hsun Huang rằng tốc độ suy luận của con chip này nhanh hơn Nvidia gấp 10 lần!

Con chip tự phát triển của Groq có tên là LPU.

Theo trang web chính thức, Groq là một công ty giải pháp AI tổng quát và là người tạo ra công cụ suy luận LPU, accelerator xử lý ngôn ngữ nhanh nhất trên thị trường.

Nó được xây dựng từ đầu để đạt được độ trễ thấp, tiết kiệm năng lượng và hiệu suất suy luận có thể lặp lại trên quy mô lớn. Khách hàng dựa vào công cụ suy luận LPU như một giải pháp toàn diện để chạy các mô hình ngôn ngữ lớn (LLM) và các ứng dụng AI tổng hợp khác nhanh hơn tới 10 lần.

Nói cách khác, bất kỳ model nào chạy trên LPU đều có thể được cải thiện về tốc độ.

Để quảng bá LPU của mình, Groq thậm chí còn gọi những gã khổng lồ trong ngành AI là Zuckerberg của Meta và Altman của OpenAI trên trang web chính thức của mình.

Ở cấp độ kỹ thuật của LPU, theo trang web chính thức, nó nhằm mục đích khắc phục hai nút thắt LLM chính: mật độ tính toán và băng thông bộ nhớ.

Theo LLM, LPU có sức mạnh tính toán cao hơn GPU và CPU. Điều này giúp giảm thời gian cần thiết cho mỗi lần tính toán từ, cho phép tạo chuỗi văn bản nhanh hơn. Ngoài ra, việc loại bỏ tắc nghẽn bộ nhớ ngoài giúp hiệu suất của công cụ suy luận LPU trên LLM được cải thiện gấp nhiều lần so với GPU.

Theo cư dân mạng Twitter, lý do chính khiến LPU nhanh hơn GPU là do công nghệ lưu trữ và thiết kế kiến ​​trúc mà nó sử dụng.

LPU sử dụng SRAM (Bộ nhớ truy cập ngẫu nhiên tĩnh) thay vì HBM (Bộ nhớ băng thông cao) thường được sử dụng trong GPU. Tốc độ truy cập của SRAM gấp khoảng 20 lần so với HBM, cho phép LPU truy cập và xử lý dữ liệu . Ngoài ra, kiến ​​trúc máy tính tập lệnh tạm thời được LPU áp dụng giúp giảm nhu cầu truy cập nhiều lần vào bộ nhớ. nâng cao hiệu quả xử lý.

Nói theo cách nói của con người, một ví dụ sinh động là:

So sánh LPU và GPU với hai đầu bếp, LPU có một hộp công cụ hiệu quả (SRAM) chứa tất cả những nguyên liệu anh ta cần. Anh ta có thể lấy bất cứ thứ gì trong tầm tay mà không cần phải đi xa. Nguyên liệu GPU đều nằm trong một nhà kho lớn (HBM). Lần khi cần nguyên liệu, bạn phải đến kho để lấy, việc này tốn nhiều thời gian hơn. Ngay cả khi nhà kho lớn và có thể lưu trữ nhiều nguyên liệu (băng thông cao), thời gian di chuyển qua lại sẽ làm chậm toàn bộ quá trình nấu.

Khi SK Hynix nhìn thấy nó và nói rằng HBM không dễ sử dụng, liệu nó có nóng lòng muốn chết không?

Sau khi xem xét ngắn gọn công nghệ của LPU, đội ngũ đằng sau Groq có nền tảng vững chắc.

Groq không phải tự nhiên mà ra đời. Ngoài ra còn có cái bóng của Google đằng sau sự thành lập của nó (kết hợp với một điểm nóng khác gần đây, tôi cảm thấy tiếc cho Google).

Groq là công ty được thành lập tại California vào năm 2016 bởi cựu nhân viên Google Jonathan Ross. Jonathan Ross cũng là thành viên đầu tiên của đội ngũ Google TPU.

Đối với Google, TPU về cơ bản đáp ứng hầu hết các nhu cầu tỷ lệ băm của họ. Được biết, Gemini, mô hình trí tuệ nhân tạo mạnh mẽ và linh hoạt nhất được Google công bố hiện nay, sử dụng TPU cho đào tạo và dịch vụ.

Quay lại với bản thân mô hình, nói chung, những thay đổi về tỷ lệ băm sẽ chỉ ảnh hưởng đến tốc độ suy luận của mô hình. Tuy nhiên, do số lượng tính toán của các mô hình lớn là không nhỏ nên một số thay đổi có thể xảy ra sau khi số chữ số thập phân được tối ưu hóa liên tục. Vậy so với GPU, LPU của Groq có ảnh hưởng gì đến chất lượng tạo ra model lớn không?

Ông Silicon hỏi về Llama-2-70b trên Groq và Llama-2-70b trên POE, cùng một câu hỏi "Giới thiệu Elon Musk trong 100 từ".

Về tốc độ, hai nền tảng tương tự nhau và kết quả hơi khác nhau, nhưng về cơ bản chúng đều mượt mà.

Hiện tại Groq hỗ trợ truy cập API và cung cấp tổng cộng 3 mô hình là Llama 2 70B, Llama 2 7B và Mixtral 8x7B SMoE. Về giá cả, Groq cũng khá rẻ. Giá đầu vào và đầu ra của Llama 2 70B lần lượt là 0,7$/1000k token và 0,8$/1000k token. Về giá cả, Groq đảm bảo sẽ thấp hơn mức giá tương đương trên thị trường.

Trong vài ngày qua, sora đã phổ biến trên Internet, nhưng các công ty khác cũng không nhàn rỗi. Google phát hành Genimi pro 1.5, hỗ trợ độ dài ngữ cảnh 1000K, mở rộng chiều rộng của các mô hình lớn rất nhiều. Groq mang đến LPU, giúp tăng tốc độ tạo ra các mô hình lớn lên gấp 10 lần.

Kết hợp với những cải tiến về tỷ lệ băm và quy mô của các mô hình lớn trước đây, Sijijun rất mong đợi sự phát triển liên tục của các mô hình lớn.

Tham khảo:

[1] GPU Nvidia gấp 10 lần: Các chip dành riêng cho model lớn đã trở nên nổi tiếng chỉ sau một đêm, từ đội ngũ doanh nhân Google TPU | Heart of the Machine |

[2] Groq có thể là dịch vụ suy luận mô hình ngôn ngữ lớn nhanh nhất thế giới: mô hình Mixtral 8×7B được đo lường với 45 tỷ tham số đầu ra ở tốc độ 500 mã thông báo mỗi giây |

[3] Đột phá mới trong công nghệ Groq: Mô hình Mixtral 8x7B đạt tốc độ tạo 500 token/giây |

Bài viết này xuất phát từ tài khoản công khai WeChat "New Silicon NewGeek" (ID: XinguiNewgeek) , tác giả: Dong Daoli, biên tập viên: Zhang Zeyi, thiết kế hình ảnh: Shu Rui, 36 Krypton được ủy quyền phát hành.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận