Báo cáo dài 10.000 từ lan truyền trên Phố Wall: Đằng sau sự sụt giảm Bitcoin và Nvidia

02-02

This article is machine translated

Show original

Một nhà đầu tư chuyên nghiệp từng làm việc với tư cách là nhà phân tích và kỹ sư phần mềm đã viết một bài báo bi quan về Nvidia. Bài báo được những người có ảnh hưởng trên Twitter lan truyền lượng lớn và trở thành "thủ phạm" chính khiến giá cổ phiếu Nvidia lao dốc. Nvidia mất gần 600 tỷ đô la giá trị vốn hóa thị trường, mức giảm lớn nhất trong một ngày đối với một công ty đại chúng cho đến nay.

Quan điểm chính của nhà đầu tư Jeffrey Emanuel là DeepSeek đã chọc thủng những lời dối trá do Phố Wall, các công ty công nghệ lớn và Nvidia tạo ra, và Nvidia được định giá quá cao. "Mọi ngân hàng đầu tư đều khuyên nên mua vào Nvidia, giống như một người mù chỉ đường, không hiểu mình đang nói gì."

Jeffrey Emanuel cho biết Nvidia phải đối mặt với chặng đường gập ghềnh hơn nhiều so với định giá của công ty để duy trì quỹ đạo tăng trưởng và hệ số biên lợi nhuận hiện tại. Với năm hướng tấn công khác nhau vào Nvidia—đổi mới kiến trúc, tích hợp theo chiều dọc với khách hàng, trừu tượng hóa phần mềm, đột phá về hiệu quả và dân chủ hóa sản xuất—khả năng ít nhất một trong số chúng sẽ thành công trong việc tác động đáng kể đến hệ số biên lợi nhuận hoặc tăng trưởng của Nvidia có vẻ rất cao. cao. Ở mức định giá hiện tại, thị trường không tính đến rủi ro này.

Theo một số nhà đầu tư trong ngành, nhờ báo cáo này, Emanuel bất ngờ trở thành người nổi tiếng trên Phố Wall và nhiều Quỹ phòng hộ đã trả cho ông 1.000 đô la một giờ với hy vọng được nghe quan điểm của ông về Nvidia và AI. Tôi bận rộn đến nỗi cổ họng đau rát, nhưng mắt thì mỏi vì đếm tiền.

Dưới đây là báo cáo đầy đủ. Nghiên cứu tham khảo đầy đủ.

Là một người đã làm việc với tư cách là nhà phân tích đầu tư trong khoảng 10 năm tại nhiều Quỹ phòng hộ dài hạn/ đầu cơ giá xuống (bao gồm thời gian làm việc tại Millennium và Balyasny), và là một chuyên gia toán học và máy tính đã nghiên cứu về học độ sâu kể từ năm 2010 (Vào thời điểm đó, Geoff Hinton vẫn đang nói về máy Boltzmann bị hạn chế, mọi thứ vẫn được lập trình trong MATLAB và các nhà nghiên cứu vẫn đang cố gắng chứng minh rằng họ có thể đạt được kết quả tốt hơn trong việc phân loại chữ số viết tay so với máy vectơ hỗ trợ), tôi cho rằng tôi đã có một ý tưởng khá hay về trí tuệ nhân tạo . Một góc nhìn khá độc đáo về sự phát triển của công nghệ thông minh và mối quan hệ của nó với định giá cổ phiếu trên thị trường chứng khoán.

Trong vài năm qua, tôi đã làm việc nhiều hơn với tư cách là một nhà phát triển và có một số dự án mã nguồn mở phổ biến để làm việc với nhiều dạng mô hình/dịch vụ AI khác nhau (ví dụ: LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Nguồn đến Lời nhắc và Lớp suy luận Pastel là một số ví dụ gần đây). Về cơ bản, tôi sử dụng những mô hình tiên tiến này thường xuyên mỗi ngày. Tôi có 3 tài khoản Claude nên không bao giờ hết yêu cầu và tôi đã đăng ký ra mắt.

Tôi cũng cố gắng theo kịp những tiến bộ nghiên cứu mới nhất và đọc kỹ tất cả các báo báo cáo kỹ thuật quan trọng do các phòng thí nghiệm trí tuệ nhân tạo lớn công bố. Vì vậy, tôi cho rằng tôi hiểu khá rõ về không gian này và mọi thứ đang diễn ra như thế nào. Trong khi đó, tôi short lượng lớn cổ phiếu trong đời và đã giành được Giải thưởng Ý tưởng hay nhất của Câu lạc bộ nhà đầu tư giá trị lần(cho TMS mua vào và PDH đầu cơ giá xuống nếu bạn chú ý).

Tôi nói điều này không phải để khoe khoang mà để chứng minh rằng tôi có thể bày tỏ ý kiến về vấn đề này mà không tỏ ra quá ngây thơ trước cộng đồng kỹ thuật hoặc nhà đầu tư chuyên nghiệp. Chắc chắn, có rất nhiều người giỏi toán/khoa học hơn tôi, và có rất nhiều người giỏi đầu tư long/ short vào thị trường chứng khoán hơn tôi, nhưng tôi không cho rằng là có rất nhiều người đang ở giữa sơ đồ Venn giống như tôi.

Tuy nhiên, bất cứ khi nào tôi gặp bạn bè và đồng nghiệp cũ trong giới Quỹ phòng hộ để trò chuyện, chủ đề luôn nhanh chóng chuyển chuyển đến Nvidia. Không phải ngày nào cũng có một công ty vươn lên từ vị thế vô danh thành giá trị vốn hóa thị trường lớn hơn cả thị trường chứng khoán Anh, Pháp hoặc Đức cộng lại! Những người bạn này tất nhiên muốn biết ý kiến của tôi về vấn đề này. Bởi vì tôi tin tưởng mạnh mẽ vào tác động chuyển đổi lâu dài của công nghệ này—tôi thực sự tin rằng nó sẽ cách mạng hóa mọi khía cạnh của nền kinh tế và xã hội của chúng ta trong 5-10 năm tới theo những cách cơ bản chưa từng có—nên tôi khó có thể tranh luận rằng Nvidia Tốc độ phát triển sẽ chậm lại hoặc dừng lại trong ngắn hạn.

Nhưng mặc dù tôi cho rằng định giá quá cao so với sở thích của mình trong khoảng một năm trở lại đây, một sê-ri diễn biến gần đây khiến tôi có xu hướng thiên về bản năng thận trọng hơn về triển vọng và đặt cược vào sự đồng thuận. Hãy đặt câu hỏi khi có vẻ như giá quá cao. Có một lý do tại sao câu nói "người khôn tin vào lúc đầu, kẻ ngu tin vào lúc cuối" lại nổi tiếng.

Trường hợp thị trường bò

Trước khi chúng ta thảo luận về sự phát triển khiến tôi phải dừng lại, trước tiên hãy tóm tắt ngắn gọn về trường hợp thị trường bò của cổ phiếu NVDA. Về cơ bản, mọi người đều biết về trường hợp thị trường bò của cổ phiếu NVDA. Học độ sâu và trí tuệ nhân tạo là những công nghệ mang tính biến đổi nhất kể từ khi có Internet và hứa hẹn sẽ thay đổi cơ bản mọi thứ trong xã hội của chúng ta. Nvidia hiện đang ở địa vị gần như độc quyền xét về tỷ lệ tổng chi tiêu vốn của ngành dành cho cơ sở hạ tầng đào tạo và suy luận.

Một số công ty lớn nhất và có lợi nhuận cao nhất thế giới, chẳng hạn như Microsoft, Apple, Amazon, Meta, Google, Oracle, v.v., đã quyết định duy trì khả năng cạnh tranh trong lĩnh vực này bằng mọi giá vì họ không thể để tụt hậu. Lượng chi tiêu vốn, lượng điện sử dụng, diện tích của các trung tâm dữ liệu mới được xây dựng và tất nhiên là số lượng GPU đều tăng trưởng và dường như không có dấu hiệu chậm lại. Nvidia có thể đạt được mức biên lợi nhuận gộp đáng kinh ngạc lên tới hơn 90% với các sản phẩm cao cấp dành cho trung tâm dữ liệu.

Chúng ta chỉ mới chạm tới bề nổi của thị trường bò . Hiện nay có nhiều khía cạnh hơn nữa có thể khiến ngay cả những người vốn đã rất lạc quan cũng trở nên lạc quan hơn nữa. Bên cạnh sự phát triển của đội ngũ hình người (tôi ngờ rằng hầu hết mọi người sẽ ngạc nhiên khi chúng có thể nhanh chóng thực hiện lượng lớn nhiệm vụ hiện tại đòi hỏi những người lao động không có kỹ năng (hoặc thậm chí có kỹ năng), chẳng hạn như giặt giũ, dọn dẹp, sắp xếp và nấu ăn; công việc xây dựng như (ví dụ: cải tạo phòng tắm hoặc xây nhà; quản lý kho và lái xe nâng, v.v.), và còn nhiều yếu tố khác mà hầu hết mọi người vẫn chưa cân nhắc đến.

Một trong những chủ đề chính được những người thông minh thảo luận là sự trỗi dậy của “luật mở rộng mới”, cung cấp một mô hình mới để suy nghĩ về cách nhu cầu điện toán sẽ tăng trưởng theo thời gian. Luật mở rộng ban đầu thúc đẩy sự tiến bộ của AI kể từ khi AlexNet ra đời vào năm 2012 và phát minh ra kiến trúc Transformer vào năm 2017 là luật mở rộng trước khi đào tạo: giá trị của các mã thông báo mà chúng ta sử dụng làm dữ liệu đào tạo càng cao (hiện tại là hàng nghìn tỷ) ), các mô hình chúng ta đào tạo sẽ càng nhanh. Số lượng tham số càng cao, chúng ta càng tiêu thụ nhiều sức mạnh tính toán (FLOPS) để đào tạo các mô hình này với các mã thông báo này và hiệu suất của mô hình cuối cùng sẽ càng tốt hơn trên nhiều loại nhiệm vụ hạ lưu rất hữu ích.

Không chỉ vậy, sự cải thiện này còn có thể dự đoán được ở mức độ mà các phòng thí nghiệm AI hàng đầu như OpenAI và Anthropic có thể biết khá rõ các mô hình mới nhất của họ sẽ tốt như thế nào trước khi họ bắt đầu đào tạo thực tế — Trong một số trường hợp, họ thậm chí còn có thể để dự đoán giá trị cơ sở của mô hình cuối cùng với độ chính xác vài phần trăm. "Luật mở rộng ban đầu" này rất quan trọng, nhưng nó luôn gây ra sự nghi ngờ cho những người sử dụng nó để dự đoán tương lai.

Đầu tiên, có vẻ như chúng ta đã khai thác hết tất cả dữ liệu đào tạo chất lượng cao mà thế giới đã tích lũy được. Tất nhiên, điều này không hoàn toàn đúng - vẫn còn nhiều sách và tạp chí cũ chưa được số hóa đúng cách hoặc ngay cả khi đã được số hóa, chúng cũng không có đủ giấy phép để sử dụng làm dữ liệu đào tạo. Vấn đề là, ngay cả khi bạn ghi nhận tất cả những điều này - chẳng hạn như tổng số tất cả nội dung viết được "chuyên nghiệp"tạo ra bằng tiếng Anh từ năm 1500 đến năm 2000, khi bạn đang nói về một kho dữ liệu đào tạo gồm gần 15 nghìn tỷ đánh dấu thông báo, đó vẫn là rất nhiều dữ liệu, xét theo góc độ phần trăm. Theo góc độ CNN, đây không phải là một con số lớn, trong khi quy mô của tập dữ liệu đào tạo là quy mô của các mô hình tiên tiến hiện tại.

Để nhanh chóng kiểm tra tính xác thực của những con số này: Google Books đã số hóa khoảng 40 triệu cuốn sách cho đến nay; nếu một cuốn sách trung bình có từ 50.000 đến 100.000 từ hoặc từ 65.000 đến 130.000 đánh dấu, thì riêng sách sẽ có giá trị khoảng 50 triệu. Điều này chiếm khoảng 2,6T và 5,2T đánh dấu, tất nhiên phần lớn trong trong đó đã được đưa vào kho dữ liệu đào tạo được các phòng thí nghiệm lớn sử dụng, bất kể có hợp pháp hay không. Ngoài ra còn có rất nhiều bài báo học thuật, riêng trên trang web arXiv đã có hơn 2 triệu bài báo. Thư viện Quốc hội có hơn 3 tỷ trang báo được số hóa. Cộng lại với nhau, tổng số có thể lên tới 7T token, nhưng vì hầu hết trong đó thực sự được bao gồm trong kho dữ liệu đào tạo nên dữ liệu đào tạo "gia tăng" còn lại có thể không quá quan trọng trong toàn bộ kế hoạch.

Tất nhiên, vẫn còn nhiều phương pháp khác để thu thập thêm dữ liệu đào tạo. Ví dụ, bạn có thể tự động phiên âm mọi video trên YouTube và sử dụng văn bản đó. Mặc dù điều này có thể hữu ích, nhưng chất lượng của nó chắc chắn kém hơn nhiều so với một cuốn sách giáo khoa hóa hữu cơ được đánh giá cao, vốn là nguồn kiến thức hữu ích về thế giới. Vì vậy, xét về quy luật thô sơ của quy mô, chúng ta liên tục phải đối mặt với mối đe dọa của "bức tường dữ liệu"; trong khi chúng ta biết rằng chúng ta có thể tiếp tục chi nhiều vốn hơn cho GPU và xây dựng nhiều trung tâm dữ liệu hơn, thì việc tạo ra kiến thức mới hữu ích cho con người ở quy mô lớn không phải là sẽ xảy ra. Điều này khó khăn hơn nhiều và kiến thức này là sự bổ sung thích hợp cho kiến thức hiện có. Hiện nay, một phương pháp thú vị là sự gia tăng của “dữ liệu tổng hợp”, trong đó bản thân văn bản là đầu ra của LLM. Mặc dù điều này có vẻ hơi vô lý, nhưng “cải thiện chất lượng mô hình thông qua nguồn cung cấp của riêng mình” thực sự có hiệu quả trong thực tế, ít nhất là trong các lĩnh vực toán học, logic và lập trình máy tính.

Lý do tất nhiên là vì đây là những lĩnh vực mà chúng ta có thể kiểm tra và chứng minh một cách máy móc rằng mọi thứ là chính xác. Vì vậy, chúng ta có thể lấy mẫu từ các định lý toán học lớn hoặc các tập lệnh Python và thực sự kiểm tra xem chúng có chính xác hay không và chỉ dữ liệu chính xác mới được đưa vào cơ sở dữ liệu của chúng ta. Theo cách này, chúng ta có thể mở rộng đáng kể tập dữ liệu đào tạo chất lượng cao, ít nhất là trong các lĩnh vực này.

Ngoài văn bản, chúng ta cũng có thể sử dụng nhiều dữ liệu khác để đào tạo trí tuệ nhân tạo. Ví dụ, điều gì sẽ xảy ra nếu chúng ta lấy toàn bộ dữ liệu giải trình tự bộ gen của 100 triệu người (kích thước dữ liệu chưa nén của một người là khoảng 200GB đến 300GB) và sử dụng nó để đào tạo trí tuệ nhân tạo? Rõ ràng đây là một lượng dữ liệu lớn, mặc dù phần lớn trong đó dữ liệu gần như giống hệt nhau giữa hai người. Tất nhiên, việc so sánh với dữ liệu văn bản từ sách và Internet có thể gây hiểu lầm vì nhiều lý do:

Kích thước bộ gen thô không thể so sánh trực tiếp với số lượng đánh dấu

Nội dung thông tin của dữ liệu bộ gen rất khác so với văn bản

Giá trị đào tạo của dữ liệu trùng lặp cao không rõ ràng

Các yêu cầu tính toán để xử lý dữ liệu bộ gen cũng khác nhau

Nhưng đây vẫn là nguồn thông tin khổng lồ mà chúng ta có thể sử dụng để đào tạo trong tương lai, đó là lý do tại sao tôi đưa nó vào.

Vì vậy, trong khi chúng ta có thể mong đợi có ngày càng nhiều dữ liệu đào tạo bổ sung, nếu bạn xem xét tốc độ mà các tập đoàn đào tạo tăng trưởng trong những năm gần đây, chúng ta sẽ sớm gặp phải tình trạng tắc nghẽn trong tính khả dụng của dữ liệu kiến thức "hữu ích nói chung". Và loại này kiến thức có thể giúp chúng ta tiến gần hơn đến mục tiêu cuối cùng là đạt được siêu trí tuệ nhân tạo thông minh hơn John von Neumann gấp 10 lần, trở thành chuyên gia đẳng cấp thế giới trong mọi lĩnh vực chuyên môn mà con người biết đến.

Ngoài lượng dữ liệu hạn chế, còn có những lo ngại khác ẩn chứa trong tâm trí những người ủng hộ luật mở rộng trước khi đào tạo. Một trong trong đó là, sau khi bạn đã đào tạo mô hình của mình, bạn sẽ làm gì với toàn bộ cơ sở hạ tầng điện toán này? Đào tạo mô hình tiếp theo? Chắc chắn, bạn có thể làm điều đó, nhưng xét đến tốc độ và khả năng của GPU được cải thiện nhanh chóng, cũng như tầm quan trọng của điện năng và các chi phí vận hành khác trong điện toán kinh tế, thì việc sử dụng cụm máy tính 2 năm tuổi để đào tạo một mô hình mới có thực sự hợp lý không? ? Tất nhiên, bạn sẽ muốn sử dụng trung tâm dữ liệu hoàn toàn mới mà bạn vừa xây dựng, có chi phí cao gấp 10 lần dữ liệu cũ và có dữ liệu suất cao gấp 20 lần nhờ công nghệ tiên tiến hơn. Vấn đề là, đến một lúc nào đó, bạn cần phải khấu hao chi phí trả trước của các khoản đầu tư này và thu hồi chúng thông qua một luồng lợi nhuận hoạt động (hy vọng là tích cực), đúng không?

Thị trường quá phấn khích về AI đến nỗi bỏ qua điểm này, cho phép các công ty như OpenAI tích lũy lỗ vốn hoạt động ngay từ đầu trong khi nhận được mức định giá ngày càng cao trong các khoản đầu tư tiếp theo (tất nhiên, điều đáng khen là họ cũng cho thấy thu nhập tăng trưởng rất nhanh) . Nhưng cuối cùng, để duy trì điều này trong toàn bộ chu kỳ thị trường, chi phí của các trung tâm dữ liệu này cuối cùng cần phải được thu hồi và lý tưởng nhất là phải có lãi, để theo thời gian, chúng có thể cạnh tranh trên cơ sở điều chỉnh rủi ro với các cơ hội đầu tư khác. Cạnh tranh với .

Mô hình mới

Được rồi, đây là quy luật mở rộng trước khi đào tạo. Vậy quy luật mở rộng“mới” này là gì? Vâng, đây là điều mà mọi người chỉ mới bắt đầu chú ý đến trong năm qua: mở rộng tính toán theo thời gian suy luận. Trước thời điểm này, phần lớn quá trình tính toán bạn dành trong quá trình này là quá trình tính toán đào tạo ban đầu để tạo mô hình. Khi bạn đã có một mô hình được đào tạo, việc thực hiện suy luận trên mô hình đó (tức là đặt câu hỏi hoặc yêu cầu LLM thực hiện một số nhiệm vụ cho bạn) chỉ sử dụng một lượng tính toán nhất định.

Điều quan trọng là tổng lượng tính toán suy luận (được đo theo nhiều cách khác nhau, chẳng hạn như FLOPS, mức sử dụng bộ nhớ GPU, v.v.) thấp hơn nhiều so với lượng tính toán cần thiết trong giai đoạn tiền đào tạo. Tất nhiên, khi bạn tăng kích thước cửa sổ ngữ cảnh của mô hình và lượng đầu ra mà nó tạo ra cùng một lúc, lượng tính toán suy luận sẽ tăng lên (mặc dù các nhà nghiên cứu đã có những cải tiến thuật toán đáng kinh ngạc về mặt này và ban đầu mọi người mong đợi mở rộng sẽ là lần) . Nhưng về cơ bản, cho đến gần đây, tính toán suy luận thường ít tốn kém hơn nhiều so với tính toán đào tạo và được chia tỷ lệ gần như tuyến tính với số lượng yêu cầu được xử lý - ví dụ, càng có nhiều yêu cầu hoàn thành văn bản ChatGPT thì càng tiêu tốn nhiều tính toán suy luận.

Với sự ra đời của Chuỗi hình Chain-of-Thought (COT) mang tính cách mạng vào năm ngoái, đáng chú ý nhất là mô hình chủ lực O1 của OpenAI (nhưng gần đây hơn là mô hình R1 mới của DeepSeek cũng sử dụng công nghệ này, chúng ta sẽ thảo luận chi tiết sau), mọi thứ đã đã thay đổi. Các mô hình COT mới này không còn tỷ lệ hóa lượng tính toán suy luận trực tiếp với độ dài của văn bản đầu ra do mô hình tạo ra (tăng theo tỷ lệ thuận với các cửa sổ ngữ cảnh lớn hơn, kích thước mô hình, v.v.), mà thay vào đó tạo ra "đánh dấu logic" trung gian; Hãy nghĩ coi nó như một dạng "trí nhớ tạm thời" hoặc "độc thoại nội tâm" mà mô hình lưu giữ khi cố gắng giải quyết vấn đề của bạn hoặc hoàn thành một nhiệm vụ nhất định.

Điều này thể hiện một cuộc cách mạng thực sự trong cách thức lý luận: hiện nay, bạn càng sử dụng nhiều mã thông báo trong quá trình suy nghĩ nội bộ này thì kết quả cuối cùng mà bạn cung cấp cho người dùng càng tốt. Trên thực tế, nó giống như việc cho một công nhân nhiều thời gian và nguồn lực hơn để hoàn thành một nhiệm vụ để họ có thể kiểm tra lại công việc của mình, hoàn thành cùng một nhiệm vụ cơ bản theo nhiều phương pháp khác nhau và xác minh rằng kết quả là như nhau; "Cắm" kết quả vào công thức để kiểm tra xem nó có thực sự giải được phương trình hay không, v.v.

Phương pháp này đã chứng minh được hiệu quả đáng kinh ngạc; nó tận dụng sức mạnh được mong đợi từ lâu của phương pháp học tăng cường cũng như khả năng mạnh mẽ của kiến trúc Transformer. Nó trực tiếp giải quyết một trong những điểm yếu lớn nhất của mô hình Transformer, đó là xu hướng gây ảo giác.

Về cơ bản, cách thức hoạt động của Transformers khi dự đoán đánh dấu tiếp theo ở mỗi bước là nếu chúng bắt đầu đi theo một "con đường" sai trong phản ứng ban đầu của chúng, chúng trở nên gần giống như một đứa trẻ quanh co đang cố bịa ra một câu chuyện. để giải thích lý do tại sao chúng trên thực tế là đúng, mặc dù họ nên sử dụng lý lẽ thường tình để nhận ra rằng những gì họ nói không thể nào đúng được.

Vì các mô hình luôn cố gắng duy trì tính nhất quán nội bộ và làm cho mỗi đánh dấu được tạo ra tiếp nối một cách tự nhiên từ đánh dấu và ngữ cảnh trước đó, nên chúng gặp khó khăn trong việc thực hiện các điều chỉnh hướng đi và quay lại. Bằng cách chia nhỏ quá trình lý luận thành nhiều giai đoạn trung gian, họ có thể thử nhiều phương pháp khác nhau, xem cách nào hiệu quả và tiếp tục cố gắng điều chỉnh hướng đi cũng như thử phương pháp khác cho đến khi họ có thể đạt đến mức độ tự tin khá cao rằng họ không nói nhảm.

Điều đặc biệt nhất về phương pháp này, bên cạnh việc nó thực sự hiệu quả, bạn càng sử dụng nhiều token logic/COT thì nó càng hiệu quả. Đột nhiên, bạn có thêm một vòng quay và khi số lượng mã thông báo suy luận COT tăng lên (yêu cầu nhiều phép tính suy luận hơn, cả về mặt phép toán dấu phẩy động và bộ nhớ), thì khả năng bạn đưa ra câu trả lời đúng sẽ càng cao - mã Có không có lỗi khi chạy lần đầu tiên hoặc giải pháp cho một bài toán logic không có bước nào rõ ràng là sai trong lập luận.

Tôi có thể cho bạn biết từ kinh nghiệm thực tế lượng lớn rằng, mặc dù mô hình Claude3.5 Sonnet của Anthropic rất tuyệt vời cho lập trình Python (thực sự rất tuyệt vời), nhưng nó luôn thất bại bất cứ khi nào bạn cần tạo bất kỳ mã dài và phức tạp nào. Hoặc những lỗi ngớ ngẩn hơn. Hiện tại, những lỗi này thường dễ sửa, trên thực tế, bạn thường chỉ có thể sử dụng lỗi do trình thông dịch Python tạo ra như một gợi ý cho lý luận tiếp theo (hoặc thực tế hơn, sử dụng cái gọi là linter để kiểm tra toàn bộ "vấn đề" " mà trình soạn thảo mã tìm thấy trong mã của bạn). được đưa vào mã), chúng sẽ được sửa mà không cần giải thích thêm. Khi mã trở nên thực sự dài hoặc phức tạp, đôi khi có thể mất nhiều thời gian hơn để sửa và thậm chí có thể cần phải gỡ lỗi thủ công.

Lần đầu tiên tôi thử mô hình O1 của OpenAI, nó giống như một sự khám phá: Tôi đã rất ngạc nhiên về mức độ hoạt động tốt của mã ngay lần đầu tiên. Điều này là do quy trình COT tự động tìm và khắc phục sự cố trước khi mã thông báo phản hồi cuối cùng được đưa vào câu trả lời do mô hình đưa ra.

Trên thực tế, mô hình O1 được sử dụng trong dịch vụ đăng ký ChatGPT Plus của OpenAI (20 đô la mỗi tháng) giống với dịch vụ đăng ký ChatGPT Pro mới (có giá cao gấp 10 lần, hoặc 200 đô la mỗi tháng), điều này đã gây ra sự náo động trong cộng đồng nhà phát triển . Mô hình được sử dụng bởi mô hình O1-Pro về cơ bản là giống nhau; điểm khác biệt chính là O1-Pro suy nghĩ lâu hơn trước khi phản hồi, tạo ra nhiều đánh dấu logic COT hơn và tiêu thụ lượng lớn tài nguyên tính toán suy luận cho lần phản hồi.

Điều này khá đáng chú ý, vì ngay cả đối với Claude3.5 Sonnet hoặc GPT4o, ngay cả khi có ngữ cảnh ~400kb+, một lời nhắc rất dài và phức tạp thường mất chưa đầy 10 giây để bắt đầu phản hồi và thường là chưa đầy 5 giây. Lời nhắc tương tự gửi đến O1-Pro có thể mất hơn 5 phút để nhận được phản hồi (mặc dù OpenAI có hiển thị cho bạn một số "bước lý luận" mà nó tạo ra trong thời gian chờ; quan trọng là OpenAI có động cơ thương mại). Vì lý do liên quan đến bí mật , chúng tôi quyết định ẩn khỏi bạn đánh dấu lý giải chính xác mà nó tạo ra và thay vào đó hiển thị cho bạn bản tóm tắt được đơn giản hóa rất nhiều).

Như bạn có thể tưởng tượng, trong nhiều trường hợp, độ chính xác là rất quan trọng - bạn thà bỏ cuộc và nói với người dùng rằng bạn không thể làm được còn hơn đưa ra câu trả lời có thể dễ dàng bị chứng minh là sai hoặc đưa ra câu trả lời liên quan đến ảo giác. Thực tế hoặc những câu trả lời hợp lý khác. Bất cứ điều gì liên quan đến tiền bạc/giao dịch, y tế và pháp lý, v.v.

Về cơ bản, miễn là chi phí suy luận không đáng kể so với mức lương theo giờ đầy đủ của nhân viên tri thức tương tác với hệ thống AI, thì trong trường hợp này, việc áp dụng phép tính COT trở thành điều hoàn toàn dễ hiểu (nhược điểm chính là Điều này có thể làm tăng đáng kể độ trễ phản hồi, vì vậy trong một số trường hợp, bạn có thể muốn lặp lại nhanh hơn bằng cách nhận phản hồi với độ trễ thấp hơn hoặc độ chính xác hoặc tính đúng đắn thấp hơn).

Vài tuần trước, có một số tin tức thú vị trong lĩnh vực trí tuệ nhân tạo, trong đó mô hình O3 chưa được phát hành của OpenAI, có thể giải quyết sê-ri các vấn đề trước đây được cho rằng không thể giải quyết được bằng phương pháp AI hiện có. ngắn hạn. OpenAI có thể giải quyết những vấn đề khó khăn nhất này (bao gồm cả các bài toán "cơ bản" cực kỳ khó, thậm chí là khó đối với các nhà toán học chuyên nghiệp rất có trình độ) vì nó đã sử dụng lượng lớn tài nguyên điện toán để giải quyết vấn đề — trong một số trường hợp, chi phí điện toán lên tới hơn 3.000 đô la khả năng giải quyết một nhiệm vụ duy nhất (khi so sánh, sử dụng mô hình Transformer thông thường, lý luận truyền thống cho một nhiệm vụ duy nhất khó có thể tốn hơn một vài đô la nếu không có Chuỗi suy nghĩ).

Không cần phải là một thiên tài về AI mới nhận ra rằng sự tiến bộ này tạo ra một quy luật mở rộng hoàn toàn mới, hoàn toàn khác với quy luật mở rộng được đào tạo trước đó. Bây giờ, bạn vẫn muốn đào tạo mô hình tốt nhất có thể bằng cách khéo léo tận dụng càng nhiều tài nguyên điện toán càng tốt và càng nhiều nghìn tỷ dữ liệu đào tạo chất lượng cao càng tốt, nhưng đây chỉ là khởi đầu của câu chuyện về thế giới mới này; bây giờ bạn có thể dễ dàng Cần một lượng tài nguyên tính toán khổng lồ để suy đoán từ các mô hình này với độ tin cậy rất cao hoặc cố gắng giải quyết các vấn đề cực kỳ khó đòi hỏi khả năng suy luận "cấp độ thiên tài" để tránh mọi cạm bẫy tiềm ẩn có thể gây ra LL.M thông thường . đã đi lạc.

Nhưng tại sao Nvidia lại được hưởng mọi lợi ích?

Ngay cả khi bạn tin, như tôi, rằng tương lai của AI gần như không thể tưởng tượng được, thì câu hỏi vẫn là: "Tại sao một công ty lại thu được phần lớn lợi nhuận từ công nghệ này?" Lịch sử có nhiều công nghệ mới quan trọng đã thay đổi thế giới Nhưng những người chiến thắng chính không phải là những công ty có triển vọng nhất trong giai đoạn đầu. Mặc dù công ty máy bay của anh em nhà Wright là nơi phát minh và hoàn thiện công nghệ này, nhưng hiện nay công ty này giá trị vốn hóa thị trường dưới 10 tỷ đô la, mặc dù đã phân chia thành nhiều công ty con. Trong khi Ford hiện có giá trị vốn hóa thị trường đáng nể là 40 tỷ đô la, thì con số đó chỉ bằng 1,1% giá trị vốn hóa thị trường hiện tại của Nvidia.

Để hiểu được điều này, bạn phải thực sự hiểu tại sao Nvidia lại có thị thị phần lớn như vậy. Suy cho cùng, họ không phải là công ty duy nhất sản xuất GPU. AMD sản xuất GPU có hiệu suất tốt. Nhìn lên từ dữ liệu , số lượng bóng bán dẫn và nút xử lý của nó tương đương với Nvidia. Tất nhiên, GPU AMD không nhanh hoặc tiên tiến bằng GPU Nvidia, nhưng GPU Nvidia cũng không nhanh hơn gấp 10 lần hay tương tự như vậy. Trên thực tế, xét về chi phí thô cho mỗi FLOP, GPU AMD chỉ đắt bằng một nửa GPU Nvidia.

Nhìn vào các thị trường bán dẫn khác, chẳng hạn như thị trường DRAM, mặc dù thị trường này có mức độ tập trung cao với chỉ ba công ty tính toàn cầu(Samsung, Micron và SK-Hynix) có ý nghĩa thực tế, nhưng biên lợi nhuận gộp của thị trường DRAM lại âm ở mức thấp nhất. của chu kỳ và Đỉnh chu kỳ là khoảng 60% và trung bình là khoảng 20%. Trong khi đó, biên lợi nhuận gộp chung của Nvidia chỉ vào khoảng 75% trong các quý gần đây, bị ảnh hưởng bởi hệ số biên lợi nhuận thấp hơn và các sản phẩm đồ họa 3D tiêu dùng phổ biến hơn.

Vậy, điều này có thể xảy ra như thế nào? Vâng, lý do chính liên quan đến phần mềm - trình điều khiển được thử nghiệm kỹ lưỡng và có độ tin cậy cao "hoạt động tốt" trên Linux (không giống như AMD, trình điều khiển Linux của họ nổi tiếng là chất lượng thấp và không ổn định) và mã mã nguồn mở được tối ưu hóa cao, chẳng hạn như PyTorch , đã được điều chỉnh để chạy tốt trên GPU Nvidia.

Không chỉ vậy, CUDA, nền tảng lập trình mà các lập trình viên sử dụng để viết mã cấp thấp được tối ưu hóa cho GPU, hoàn toàn thuộc sở hữu của Nvidia và đã trở thành tiêu chuẩn thực tế. Nếu bạn muốn thuê một nhóm lập trình viên cực kỳ tài năng, những người biết cách sử dụng GPU để tăng tốc công việc của họ và sẵn sàng trả cho họ 650.000 đô la/năm hoặc bất kỳ mức giá nào dành cho một người có bộ kỹ năng cụ thể đó, thì họ có thể sẽ có thể làm được điều đó. Có thể "suy nghĩ" và làm việc bằng CUDA.

Bên cạnh những lợi thế về phần mềm, lợi thế lớn khác của Nvidia là thứ được gọi là kết nối - về cơ bản là băng thông để liên kết hiệu quả hàng nghìn GPU với nhau để chúng có thể được khai thác cùng nhau nhằm đào tạo các mô hình cơ bản tiên tiến nhất hiện nay. Nói tóm lại, chìa khóa để đào tạo hiệu quả là phải luôn sử dụng hết công suất của tất cả GPU, thay vì chờ đợi cho đến khi nhận được lô dữ liệu tiếp theo cần thiết cho bước đào tạo tiếp theo.

Yêu cầu về băng thông rất cao, vượt xa băng thông thông thường cần thiết cho các ứng dụng trung tâm dữ liệu truyền thống. Kết nối này không thể sử dụng thiết bị mạng truyền thống hoặc cáp quang vì chúng sẽ tạo ra độ trễ quá lớn và không thể cung cấp băng thông terabyte mỗi giây cần thiết để tất cả GPU liên tục hoạt động.

Việc Nvidia mua lại công ty Mellanox của Israel với giá 6,9 tỷ đô la vào năm 2019 là một quyết định rất sáng suốt và chính thương vụ mua lại lần đã cung cấp cho họ công nghệ kết nối hàng đầu trong ngành. Lưu ý rằng tốc độ kết nối có liên quan nhiều hơn trong quá trình đào tạo (khi đầu ra của hàng nghìn GPU phải được sử dụng đồng thời) so với trong quá trình suy luận (bao gồm suy luận COT), khi chỉ cần một số ít GPU. Chỉ cần đủ VRAM để lưu trữ lượng tử hóa (nén) tỷ trọng mô hình của một mô hình đã được đào tạo.

Có thể nói, đây là những thành phần chính của "hệ thống bảo vệ" Nvidia và là lý do tại sao công ty này có thể duy trì biên hệ số biên lợi nhuận cao trong thời gian dài như vậy (cũng có một "hiệu ứng bánh đà" khi họ tích cực tái đầu tư lợi nhuận vượt mức của mình vào lượng lớn R&D , điều này giúp họ cải thiện công nghệ nhanh hơn đối thủ cạnh tranh, do đó họ luôn địa vị về hiệu suất thô).

Nhưng như đã chỉ ra trước đó, tất cả những thứ khác đều bình đẳng, điều mà khách hàng thực sự quan tâm thường là hiệu suất trên mỗi đô la (bao gồm cả chi phí đầu tư ban đầu cho thiết bị và mức sử dụng năng lượng, tức là hiệu suất trên mỗi watt), và trong khi GPU của Nvidia thực sự là nhanh nhất, nhưng nếu chỉ đo bằng FLOPS thì chúng không phải là giải pháp tiết kiệm chi phí nhất.

Vấn đề là, các yếu tố khác không ngang bằng, trình điều khiển của AMD tệ, các thư viện phần mềm AI phổ biến không chạy tốt trên GPU AMD và bạn không thể tìm thấy các chuyên gia GPU thực sự giỏi về GPU AMD ngoài lĩnh vực chơi game (Tại sao họ phải bận tâm? , khi nhu cầu về các chuyên gia CUDA trên thị trường ngày càng cao?), bạn không thể kết nối hiệu quả hàng nghìn GPU với nhau do công nghệ kết nối kém của AMD - tất cả những điều này có nghĩa là AMD ít được sử dụng trong các trung tâm dữ liệu cao cấp. Lĩnh vực này là về cơ bản là không có sức cạnh tranh và dường như không có triển vọng phát triển tốt trong ngắn hạn.

Vâng, nghe có vẻ mọi thứ sẽ rất tuyệt vời với Nvidia, phải không? Bây giờ bạn đã biết tại sao giá cổ phiếu của công ty lại cao như vậy rồi! Nhưng còn có mối lo ngại nào khác không? Vâng, tôi không cho rằng có nhiều mối quan ngại đáng được chú ý nhiều. Một số vấn đề này đã tiềm ẩn trong vài năm qua, nhưng xét theo tốc độ tăng trưởng thì tác động của chúng là rất nhỏ. Nhưng họ đang chuẩn bị để có thể tiến lên phía trên. Các vấn đề khác chỉ mới xuất hiện gần đây (ví dụ: trong hai tuần qua) và có thể thay đổi đáng kể quỹ đạo tăng trưởng nhu cầu GPU trong ngắn hạn.

Mối đe dọa lớn

Ở cấp độ vĩ mô, bạn có thể nghĩ về nó như thế này: Nvidia đã hoạt động trong một không gian rất hẹp trong một thời gian khá dài; họ có rất ít đối thủ cạnh tranh và những đối thủ cạnh tranh đó không có nhiều lợi nhuận hoặc không tăng trưởng đủ nhanh. Họ không đặt ra một mối đe dọa thực sự vì họ không có đủ vốn để gây áp lực lên những công ty dẫn đầu thị trường như Nvidia. Thị trường trò chơi điện tử rất lớn và tăng trưởng, nhưng không tạo ra lợi nhuận khổng lồ hoặc tăng trưởng đặc biệt ấn tượng.

Vào khoảng năm 2016-2017, một số công ty công nghệ lớn bắt đầu tăng cường tuyển dụng và chi tiêu cho máy học và AI, nhưng nhìn lên, đây không thực sự là vấn đề lớn đối với họ — mà giống như một cú nhảy vọt về chi tiêu cho R&D. Nhưng cuộc cạnh tranh trong lĩnh vực trí tuệ nhân tạo thực sự bắt đầu sau khi ChatGPT ra mắt vào năm 2022. Mặc dù mới chỉ hơn hai năm kể từ đó, nhưng có vẻ như một thời gian dài đã trôi qua xét về tốc độ phát triển.

Đột nhiên, các công ty lớn sẵn sàng đầu tư hàng tỷ đô la với tốc độ đáng kinh ngạc. Đã có sự gia tăng về số lượng các nhà nghiên cứu tham dự các hội nghị nghiên cứu lớn như Neurips và ICML. Những sinh viên thông minh trước đây có thể làm việc về các sản phẩm phái sinh tài chính thì nay làm việc tại Transformers, và các gói lương thưởng lên tới hàng triệu đô la cho các vị trí kỹ sư không điều hành (tức là những người đóng góp độc lập không quản lý đội ngũ) đã trở thành chuẩn mực tại các phòng thí nghiệm AI hàng đầu.

Việc thay đổi hướng đi của một tàu du lịch lớn mất một thời gian; ngay cả khi bạn di chuyển rất nhanh và chi hàng tỷ đô la, cũng có thể mất một năm hoặc hơn để xây dựng một trung tâm dữ liệu hoàn toàn mới, đặt hàng tất cả các thiết bị (với thời gian chờ lâu hơn), và mọi thiết lập và gỡ lỗi đã được thực hiện. Ngay cả những lập trình viên thông minh nhất cũng phải mất nhiều thời gian để thực sự bắt nhịp với công việc và làm quen với cơ sở hạ tầng và cơ sở mã hiện có.

Nhưng bạn có thể tưởng tượng rằng số tiền, nhân lực và năng lượng đầu tư vào lĩnh vực này là vô cùng lớn. Nvidia là mục tiêu lớn nhất của tất cả các bên tham gia vì họ là những người đóng góp lợi nhuận lớn nhất hiện nay, chứ không phải trong tương lai khi AI thống trị cuộc sống của chúng ta.

Do đó, kết luận quan trọng nhất là "thị trường sẽ luôn tìm ra cách". Họ sẽ tìm ra phương pháp mới thay thế và sáng tạo triệt để để sản xuất phần cứng, sử dụng những ý tưởng hoàn toàn mới để vượt qua các trở ngại và do đó củng cố hệ thống bảo vệ của Nvidia.

Mối đe dọa ở cấp độ phần cứng

Ví dụ, chip đào tạo AI "quy mô wafer" được gọi là của Cerebras sử dụng toàn bộ một wafer silicon 300mm cho một con chip cực kỳ khổng lồ chứa nhiều hơn hàng cấp số nhân các bóng bán dẫn và lõi trên một khuôn duy nhất (xem bài đăng trên blog gần đây của họ để tìm hiểu cách họ đã giải quyết các vấn đề về năng suất khiến phương pháp này không khả thi về mặt kinh tế trong quá khứ).

Để hiểu rõ hơn, nếu bạn so sánh chip WSE-3 mới nhất của Cerebras với GPU trung tâm dữ liệu hàng đầu của Nvidia, H100, chip Cerebras có tổng diện tích khuôn là 46.225 mm vuông, trong khi H100 chỉ là 814 mm vuông ( theo tiêu chuẩn công nghiệp, H100 có diện tích là 1.000 feet vuông). là một con chip khổng lồ); tức là gấp 57 lần! Thay vì có 132 lõi "streaming multiprocessor" trên chip như H100, chip Cerebras có khoảng 900.000 lõi (tất nhiên, mỗi lõi nhỏ hơn và có ít năng lượng hơn, nhưng khi so sánh, con số này vẫn rất lớn). Cụ thể, trong lĩnh vực trí tuệ nhân tạo, sức mạnh tính toán FLOPS của chip Cerebras mạnh gấp khoảng 32 lần so với một chip H100 đơn lẻ. Vì chip H100 có giá gần 40.000 đô la nên có thể chip WSE-3 cũng không hề rẻ.

Vậy thì mục đích của việc này là gì? Thay vì cố gắng đối đầu trực diện với Nvidia bằng phương pháp tương tự hoặc cố gắng bắt kịp công nghệ kết nối của Mellanox, Cerebras đang áp dụng một phương pháp mới triệt để để giải quyết vấn đề kết nối: Khi mọi thứ chạy trên cùng một con chip rất lớn, Khi bộ xử lý băng thông nhỏ hơn, vấn đề băng thông giữa các bộ xử lý trở nên ít quan trọng hơn. Bạn thậm chí không cần đến cùng một mức độ kết nối, vì một con chip khổng lồ có thể thay thế hàng tấn H100.

Hơn nữa, chip Cerebras còn hoạt động rất tốt trong nhiệm vụ suy luận trí tuệ nhân tạo. Trên thực tế, bạn có thể dùng thử miễn phí ngay hôm nay và sử dụng mô hình Llama-3.3-70B rất nổi tiếng của Meta. Tốc độ phản hồi của nó về cơ bản là tức thời, khoảng 1500 token mỗi giây. Theo góc độ so sánh, tốc độ hơn 30 token mỗi giây là tương đối nhanh đối với người dùng so với ChatGPT và Claude, và thậm chí 10 token mỗi giây cũng đủ nhanh để về cơ bản tạo ra phản hồi trong khi Đọc.

Cerebras không phải là công ty duy nhất làm được điều này, còn có những công ty khác như Groq (không nên nhầm lẫn với sê-ri mô hình Grok được đào tạo bởi X AI của Elon Musk). Groq sử dụng phương pháp cận sáng tạo khác để giải quyết cùng một vấn đề cơ bản. Thay vì cố gắng cạnh tranh trực tiếp với bộ phần mềm CUDA của Nvidia, họ đã phát triển cái gọi là "đơn vị xử lý tensor" (TPU) chuyên thực hiện các phép toán chính xác theo yêu cầu của các mô hình học độ sâu. Chip của họ được thiết kế dựa trên khái niệm "tính toán xác định", nghĩa là không giống như GPU truyền thống, chip của họ thực hiện các hoạt động theo cách hoàn toàn có thể dự đoán được lần.

Điều này có vẻ như là một chi tiết kỹ thuật nhỏ, nhưng thực ra nó có ý nghĩa rất lớn đối với cả thiết kế chip và phát triển phần mềm. Vì thời gian hoàn toàn mang tính quyết định nên Groq có thể tối ưu hóa chip theo cách mà kiến trúc GPU truyền thống không thể làm được. Kết quả là, trong hơn 6 tháng qua, họ đã chứng minh được tốc độ suy luận hơn 500 mã thông báo mỗi giây cho sê-ri mô hình Llama và các mô hình mã nguồn mở khác, vượt xa những gì có thể đạt được bằng thiết lập GPU truyền thống. Giống như Cerebras, sản phẩm này hiện đã có sẵn và bạn có thể dùng thử miễn phí tại đây.

Sử dụng mô hình Llama3 với khả năng “giải mã suy đoán”, Groq có thể tạo ra 1.320 mã thông báo mỗi giây, tương đương với Cerebras và vượt xa hiệu suất khi sử dụng GPU thông thường. Bây giờ, bạn có thể hỏi mục đích của việc đạt tới 1000+ token mỗi giây là gì khi người dùng có vẻ khá hài lòng với tốc độ của ChatGPT (dưới 1000 token mỗi giây). Trên thực tế, điều này thực sự quan trọng. Khi bạn nhận được phản hồi tức thời, bạn sẽ lặp lại nhanh hơn và không mất tập trung như những người làm công việc trí óc. Nếu bạn sử dụng mô hình theo chương trình thông qua API, nó có thể kích hoạt các lớp ứng dụng hoàn toàn mới yêu cầu suy luận nhiều giai đoạn (đầu ra của giai đoạn trước được sử dụng làm đầu vào cho các gợi ý/suy luận trong giai đoạn tiếp theo) hoặc yêu cầu phản hồi về độ trễ, chẳng hạn như Kiểm duyệt nội dung, phát hiện gian lận, định giá linh hoạt, v.v.

Nhưng về cơ bản, bạn phản hồi yêu cầu càng nhanh thì tốc độ xử lý càng nhanh và phần cứng của bạn sẽ càng bận rộn. Mặc dù phần cứng của Groq khá đắt, từ 2 đến 3 triệu đô la cho một máy chủ, nhưng nếu nhu cầu đủ cao để phần cứng luôn hoạt động thì chi phí cho mỗi yêu cầu hoàn thành có thể giảm đáng kể.

Giống như CUDA của Nvidia, phần lớn lợi thế của Groq đến từ bộ phần mềm độc quyền của nó. Họ có thể sử dụng các mô hình mã nguồn mở mà các công ty khác như Meta, DeepSeek và Mistral đã phát triển và phát hành miễn phí, sau đó xử lý chúng theo những cách đặc biệt để chạy nhanh hơn trên phần cứng cụ thể.

Giống như Cerebras, họ đã đưa ra những quyết định kỹ thuật khác nhau để tối ưu hóa một số khía cạnh cụ thể của quy trình, từ đó tạo ra cách thực hiện hoàn toàn khác. Lấy Groq làm ví dụ. Họ tập trung hoàn toàn vào điện toán cấp độ suy luận, không phải đào tạo: tất cả phần cứng và phần mềm đặc biệt của họ chỉ hoạt động với tốc độ và hiệu quả cao khi thực hiện suy luận trên các mô hình đã được đào tạo.

Nhưng nếu luật mở rộng lớn tiếp theo mà mọi người mong đợi là điện toán cấp độ suy luận và nhược điểm lớn nhất của mô hình COT là tất cả đánh dấu logic trung gian phải được tạo ra trước khi có thể đưa ra phản hồi, dẫn đến độ trễ quá mức, thì ngay cả một công ty chỉ thực hiện tính toán suy luận, miễn là tốc độ và hiệu quả của nó vượt xa Nvidia, nó sẽ tạo ra mối đe dọa cạnh tranh nghiêm trọng trong vài năm tới. Ít nhất, Cerebras và Groq có thể tận dụng được kỳ vọng quá cao về tăng trưởng thu nhập của Nvidia trong 2-3 năm tới dựa trên định giá cổ phiếu hiện tại.

Ngoài những đối thủ khởi nghiệp đặc biệt sáng tạo nhưng ít được biết đến này, một số khách hàng lớn nhất của Nvidia cũng là đối thủ cạnh tranh đáng gờm khi họ đã và đang xây dựng các chip tùy chỉnh dành riêng cho khối lượng công việc đào tạo AI và suy luận. Đáng chú ý nhất trong đó là Google, công ty đã phát triển TPU độc quyền của riêng mình kể từ năm 2016. Điều thú vị là mặc dù Google đã bán TPU cho khách hàng bên ngoài trong một thời gian ngắn, Google đã sử dụng tất cả các TPU của mình trong nội bộ trong vài năm qua và hiện đang ở thế hệ phần cứng TPU thứ sáu.

Amazon cũng đang phát triển chip tùy chỉnh của riêng mình, được gọi là Trainium2 và Inferentia2. Amazon đang xây dựng các trung tâm dữ liệu được trang bị hàng tỷ đô la GPU Nvidia và đồng thời, họ đang đầu tư hàng tỷ đô la vào các trung tâm dữ liệu khác sử dụng các chip nội bộ này. Họ có một cụm đang được đưa ra mắt cho Anthropic với hơn 400.000 chip.

Amazon đã bị chỉ trích vì làm hỏng hoàn toàn quá trình phát triển mô hình AI nội bộ, lãng phí lượng lớn tài nguyên điện toán nội bộ vào các mô hình cuối cùng không có khả năng cạnh tranh, nhưng chip tùy chỉnh lại là một vấn đề khác. Tương tự như vậy, họ không nhất thiết cần chip của mình phải tốt hơn hoặc nhanh hơn chip của Nvidia. Họ chỉ cần những con chip đủ tốt, nhưng được sản xuất ở mức biên lợi nhuận gộp hòa vốn, chứ không phải mức biên lợi nhuận gộp ~90%+ mà Nvidia đang kiếm được từ việc kinh doanh H100 của mình.

OpenAI cũng công bố kế hoạch xây dựng chip tùy chỉnh và họ (cùng với Microsoft) rõ ràng là người dùng phần cứng dữ liệu Nvidia lớn nhất. Như thể điều đó vẫn chưa đủ, Microsoft còn tự công bố chip silicon tùy chỉnh của riêng mình!

Apple, công ty công nghệ có giá trị nhất thế giới, đã làm Sự lật đổ kỳ vọng trong nhiều năm với mảng việc kinh doanh chip tùy chỉnh mang tính đột phá và Sự lật đổ cao, việc kinh doanh đã đánh bại hoàn toàn Intel và AMD về hiệu suất trên mỗi watt. CPU và hiệu suất trên mỗi watt là yếu tố quan trọng nhất trong các ứng dụng di động (điện thoại/máy tính bảng/máy tính xách tay). Họ đã sản xuất GPU và "bộ xử lý thần kinh" do chính họ thiết kế trong nhiều năm, mặc dù họ vẫn chưa thực sự chứng minh được tính hữu ích của những con chip đó bên ngoài các ứng dụng tùy chỉnh của họ, chẳng hạn như xử lý hình ảnh dựa trên phần mềm tiên tiến được sử dụng trong camera của iPhone.

Mặc dù trọng tâm của Apple có vẻ hơi khác so với những đối thủ khác, với trọng tâm là ưu tiên thiết bị di động, hướng đến người tiêu dùng và "điện toán biên", nhưng nếu Apple đầu tư đủ tiền vào hợp đồng mới với OpenAI, thì đó có thể là một lợi ích. cho công ty. Nếu họ cung cấp dịch vụ AI cho người dùng iPhone, thì bạn phải tưởng tượng họ có đội ngũ làm việc để tạo ra chip tùy chỉnh của riêng họ cho mục đích suy luận/đào tạo (mặc dù vì tính bí mật của họ, có lẽ bạn sẽ không bao giờ biết điều này trực tiếp!) .

Hiện nay, không còn là bí mật nữa khi lượng khách hàng mở rộng của Nvidia thể hiện sự phân phối theo luật lũy thừa mạnh mẽ, trong đó một số ít khách hàng hàng đầu chiếm phần lớn thu nhập nhuận cao. Khi mỗi khách hàng VIP này đang xây dựng chip tùy chỉnh riêng cho mục đích đào tạo và suy luận AI, chúng ta nên ứng xử tương lai của việc kinh doanh này?

Khi bạn suy nghĩ về những câu hỏi này, bạn nên nhớ một sự thật rất quan trọng: Nvidia phần lớn là một công ty hoạt động dựa trên sở hữu trí tuệ. Họ không tự sản xuất chip. Bí quyết thực sự đặc biệt để tạo ra những thiết bị đáng kinh ngạc này có thể đến từ TSMC và ASML, những công ty chế tạo máy quang khắc EUV đặc biệt dùng để sản xuất các chip nút quy trình tiên tiến này. Điều này rất quan trọng vì TSMC sẽ bán những con chip tiên tiến nhất của mình cho bất kỳ khách hàng nào sẵn sàng đầu tư đủ tiền ban đầu và đảm bảo một khối lượng nhất định. Họ không quan tâm liệu chip có phải là TÍCH HỢP để khai thác Bitcoin , bộ xử lý đồ họa, polyurethane nhiệt dẻo, hệ thống điện thoại di động trên chip, v.v.

Với mức thu nhập hàng năm của các nhà thiết kế chip cao cấp tại Nvidia, những gã khổng lồ công nghệ này chắc chắn có thể trả đủ tiền mặt và cổ phiếu để thu hút một số nhân tài giỏi nhất trong đó chuyển sang làm việc tại công ty này. Khi họ có đội ngũ và nguồn lực, họ có thể thiết kế một con chip cải tiến trong vòng 2-3 năm (thậm chí có thể không tiên tiến bằng 50% H100, nhưng với biên lợi nhuận gộp của Nvidia, họ có nhiều dư địa để phát triển) và nhờ TSMC, họ có thể biến những con chip này thành silicon thực tế bằng cách sử dụng cùng công nghệ nút quy trình như Nvidia.

Mối đe dọa phần mềm

Như thể những mối đe dọa phần cứng đang rình rập này chưa đủ tệ, trong vài năm qua cũng đã có một số sự phát triển trong không gian phần mềm, mặc dù khởi đầu chậm nhưng hiện đang phát triển mạnh mẽ và có thể gây ra mối đe dọa nghiêm trọng đến vị trí chủ đạo phần mềm CUDA của Nvidia. Đầu tiên là trình điều khiển Linux tệ hại dành cho GPU AMD. Bạn còn nhớ khi chúng ta thảo luận về việc AMD đã thiếu khôn ngoan khi để những trình điều khiển này trở nên tệ hại trong nhiều năm qua trong khi ngồi nhìn lượng lớn trôi qua không?

Thật thú vị, hacker khét tiếng George Hotz (nổi tiếng vì đã bẻ khóa iPhone gốc khi còn là thiếu niên) hiện là CEO của công ty khởi nghiệp xe tự lái Comma.ai và công ty máy tính AI Tiny Corp, công ty cũng đã phát triển khuôn khổ phần mềm AI TinyGrad mã nguồn mở, gần đây đã thông báo rằng ông đã chán ngấy việc phải xử lý trình điều khiển kém của AMD và mong muốn sử dụng GPU AMD giá rẻ hơn trong máy tính TinyBox AI của mình (có một số mẫu, một trong đó sử dụng GPU Nvidia, trong khi một số khác sử dụng GPU AMD).

Trên thực tế, anh ấy đã tự tạo ra trình điều khiển tùy chỉnh và ngăn xếp phần mềm cho GPU AMD mà không cần sự trợ giúp của AMD; vào ngày 15 tháng 1 năm 2025, anh ấy đã tweet từ tài khoản X của công ty: "Chúng ta còn cách AMD hoàn toàn tự động 30 phút nữa". Trình biên dịch RDNA3 chỉ là một bước nữa. Chúng tôi có trình điều khiển, thời gian chạy, thư viện và trình mô phỏng riêng. (Tất cả trong khoảng 12.000 dòng!) Với thành tích và kỹ năng của anh ấy, chúng có thể sẽ được hoàn thành trong vài tháng tới. Tất cả đều hoạt động, điều này sẽ mở ra rất nhiều khả năng thú vị khi sử dụng GPU AMD cho nhiều ứng dụng khác nhau mà hiện tại các công ty phải trả tiền cho GPU Nvidia.

Vâng, đó chỉ là trình điều khiển của AMD và vẫn chưa hoàn thiện. Còn gì nữa? Vâng, có những lĩnh vực khác trong phần mềm có tác động lớn hơn nhiều. Đầu tiên, nhiều công ty công nghệ lớn và cộng đồng phần mềm mã nguồn mở hiện đang hợp tác với nhau để phát triển một khuôn khổ phần mềm AI tổng quát hơn, trong đó CUDA chỉ là một trong nhiều "mục tiêu biên dịch".

Nghĩa là, bạn viết phần mềm của mình bằng cách sử dụng các khái niệm trừu tượng cấp cao hơn và bản thân hệ thống có thể tự động dịch các cấu trúc cấp cao đó thành mã cấp thấp được tối ưu hóa siêu tốc chạy cực tốt trên CUDA. Nhưng vì nó được thực hiện ở mức độ trừu tượng cao hơn này nên nó có thể dễ dàng được biên dịch thành mã cấp thấp chạy tốt trên nhiều GPU và TPU khác từ nhiều nhà cung cấp khác nhau, chẳng hạn như các công ty công nghệ lớn đang phát triển lượng lớn các ứng dụng tùy chỉnh khoai tây chiên.

Những ví dụ đáng chú ý nhất về các khuôn khổ này là MLX (chủ yếu được tài trợ bởi Apple), Triton (chủ yếu được tài trợ bởi OpenAI) và JAX (do Google phát triển). MLX đặc biệt thú vị vì nó cung cấp API giống PyTorch chạy hiệu quả trên Apple Silicon, chứng minh cách các lớp trừu tượng này có thể cho phép khối lượng công việc AI chạy trên các kiến trúc hoàn toàn khác nhau. Trong khi đó, Triton ngày càng phổ biến vì nó cho phép các nhà phát triển viết mã hiệu suất cao có thể được biên dịch để chạy trên nhiều mục tiêu phần cứng khác nhau mà không cần phải hiểu các chi tiết cấp thấp của từng nền tảng.

Các khuôn khổ này cho phép các nhà phát triển viết mã bằng cách sử dụng các kỹ thuật trừu tượng mạnh mẽ và sau đó tự động biên dịch mã đó cho lượng lớn nền tảng - nghe có vẻ hiệu quả hơn phải không? Phương pháp này mang lại sự linh hoạt hơn khi thực sự chạy mã.

Vào những năm 1980, tất cả các phần mềm phổ biến và bán chạy nhất đều được viết bằng ngôn ngữ lắp ráp thủ công. Ví dụ, tiện ích nén PKZIP tạo ra thiết kế thủ công để tối đa hóa tốc độ, đến mức một phiên bản mã được viết bằng ngôn ngữ lập trình C chuẩn và được biên dịch bằng trình biên dịch tối ưu hóa tốt nhất thời bấy giờ chỉ có thể chạy nhanh bằng mã lắp ráp được điều chỉnh thủ công. . một nửa. Điều tương tự cũng đúng với các gói phần mềm phổ biến khác như WordStar, VisiCalc, v.v.

Theo thời gian, trình biên dịch trở nên mạnh mẽ hơn và bất cứ khi nào kiến trúc CPU thay đổi (ví dụ: từ Intel phát hành 486 sang Pentium, v.v.), các chương trình lắp ráp viết tay thường phải bị loại bỏ và viết lại, chỉ với những cái mới nhất đang được sử dụng. Các lập trình viên thông minh là những người có thể làm công việc này (giống như các chuyên gia CUDA có lợi thế trên thị trường việc làm so với các nhà phát triển phần mềm "thông thường"). Cuối cùng, mọi thứ đã hội tụ và lợi thế về tốc độ của trình biên dịch thủ công đã bị lu mờ đáng kể so với tính linh hoạt khi viết mã bằng ngôn ngữ cấp cao hơn như C hoặc C++, vốn dựa vào trình biên dịch để làm cho mã chạy tối ưu trên một CPU nhất định.

Ngày nay, rất ít người viết mã mới bằng ngôn ngữ lắp ráp. Tôi tin rằng một sự thay đổi tương tự cuối cùng sẽ xảy ra với việc đào tạo AI và mã suy luận, vì những lý do tương tự: máy tính có khả năng tối ưu hóa tốt, tính linh hoạt và tốc độ phát triển là những yếu tố ngày càng quan trọng, đặc biệt là nếu nó cũng giúp tiết kiệm đáng kể chi phí phần cứng. Bởi vì bạn không phải tiếp tục trả "thuế CUDA", loại thuế tạo ra hơn 90% lợi nhuận của Nvidia.

Tuy nhiên, một lĩnh vực khác có thể xảy ra những thay đổi lớn là bản thân CUDA cuối cùng có thể trở thành một sự trừu tượng hóa cấp cao — một "ngôn ngữ đặc tả" tương tự như Verilog (một tiêu chuẩn công nghiệp để mô tả bố cục chip) mà các nhà phát triển lành nghề có thể sử dụng để tạo đồ họa tùy chỉnh. mô tả các thuật toán nâng cao liên quan đến tính song song lớn (vì họ đã quen thuộc với nó, nó được cấu trúc tốt, nó là ngôn ngữ đa năng, v.v.), nhưng không giống như thông lệ thông thường, mã không được biên dịch để sử dụng trên GPU Nvidia, mà là được đưa vào LLM dưới dạng mã nguồn, LLM có thể chuyển đổi mã đó thành bất kỳ mã cấp thấp nào mà chip Cerebras mới, Amazon Trainium2 mới hoặc Google TPUv6 mới có thể hiểu được. Điều này không còn xa vời như bạn nghĩ nữa; với mô hình O3 mới nhất của OpenAI, điều này có lẽ đã nằm trong tầm tay và chắc chắn sẽ được triển khai rộng rãi trong vòng một hoặc hai năm nữa.

Mối đe dọa lý thuyết

Có lẽ sự việc gây sốc nhất đã xảy ra trong vài tuần qua. Tin tức này đã làm rung chuyển thế giới AI đến tận gốc rễ, và trong khi các phương tiện truyền thông chính thống không hề đề cập đến nó, thì nó đã trở thành một chủ đề thịnh hành trong giới trí thức trên Twitter: một công ty khởi nghiệp Trung Quốc có tên DeepSeek đã phát hành hai mô hình mới có mức hiệu suất xấp xỉ tương đương với các mô hình tốt nhất từ OpenAI và Anthropic (vượt qua mô hình Meta Llama3 và các mô hình mã nguồn mở nhỏ hơn khác như Mistral). Các mô hình này được đặt tên là DeepSeek-V3 (về cơ bản là phản hồi cho GPT-4o và Claude3.5 Sonnet) và DeepSeek-R1 (về cơ bản là phản hồi cho mô hình O1 của OpenAI).

Tại sao tất cả những điều này lại gây sốc đến vậy? Đầu tiên, DeepSeek là một công ty nhỏ được cho là có chưa đến 200 nhân viên. Người ta cho rằng họ bắt đầu là một Quỹ phòng hộ giao dịch định lượng tương tự như TwoSigma hoặc RenTec, nhưng sau khi Trung Quốc tăng cường quản lý lĩnh vực này, họ đã sử dụng chuyên môn toán học và kỹ thuật của mình để chuyển sang nghiên cứu trí tuệ nhân tạo. Nhưng thực tế là họ đã phát hành hai báo cáo kỹ thuật rất

BTC

0.91%

Sector:

Halving Tokens

Source

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Add to Favorites

Comments

Relevant content