avatar
웹3 솔라나 광기 연구실
Theo dõi
Bài đăng
avatar
웹3 솔라나 광기 연구실
Một tuyên bố thẳng thắn Tôi tin rằng PumpFun đã phá hủy thị trường altcoin. PumpFun đã thành công trong việc tạo ra một giao thức tạo doanh thu và một cấu trúc trong đó lợi nhuận của giao thức được phân phối cho những người nắm giữ token PUMP thông qua các đợt mua lại ồ ạt. Kể từ đó, mọi người coi việc các dự án blockchain tạo ra lợi nhuận ngay lập tức và chia sẻ lợi nhuận đó với những người nắm giữ token là điều công bằng. Về cơ bản, một tiêu chuẩn để đánh giá giá trị của các khoản đầu tư altcoin đã được thiết lập. Giờ đây, vô số altcoin từng tạo ra token bằng cách bán những giấc mơ hão huyền phải trả lời những câu hỏi như, "Các bạn thậm chí còn không kiếm được tiền," và "Vậy tôi được gì nếu nắm giữ những token này?" Để giải quyết vấn đề này, các dự án thực tế và đã được chứng minh hiệu quả nhất, đương nhiên, là những dự án như Memecoin Launchpad hoặc Gambling Site, trong khi vô số các bản sao PumpFun đang tràn ngập thị trường. Vì việc bán những giấc mơ phi thực tế không còn hiệu quả nữa, tốc độ đổi mới trong cơ sở hạ tầng và công nghệ không tạo ra doanh thu đã chậm lại. Một tiêu chuẩn để đánh giá giá trị đã được thiết lập trong thị trường tiền điện tử, vốn phát triển thông qua việc bán đi những giấc mơ, và tôi tin rằng rất khó để quay trở lại thị trường altcoin của quá khứ. Đôi khi tôi nhớ những ngày tôi từng mua Fartcoin chỉ để cho mình "xì hơi"... Ồ, viết như thế này làm cho PumpFun nghe có vẻ là một dự án thực sự tốt nhỉ? (Liên kết gốc: Charizard)
PUMP
0.04%
avatar
웹3 솔라나 광기 연구실
03-25
[Lưu ý nếu bạn đang sử dụng LLM cục bộ: Google Research công bố TurboQuant] Các mô hình AI sử dụng thứ gọi là "bộ nhớ đệm KV" khi hội thoại. Nói một cách đơn giản, đó là một cuốn sổ tay được AI sử dụng để nhanh chóng tham chiếu nội dung đã đọc trước đó; tuy nhiên, khi cuộc hội thoại dài hơn, bộ nhớ đệm này sẽ lớn dần và tiêu thụ toàn bộ bộ nhớ GPU. Do đó, việc xử lý điều này đòi hỏi một GPU đắt tiền. (Điều này hơi khác so với token. Mặc dù nó tăng lên cùng với token, nhưng nó là dữ liệu tạm thời chỉ tồn tại trong thời gian ngắn trong bộ nhớ và biến mất khi phiên khởi động lại.) TurboQuant là một thuật toán nén giúp giảm kích thước cuốn sổ tay này hơn sáu lần mà vẫn duy trì độ chính xác bằng không. Ngoài ra, nó còn tăng tốc độ lên đến tám lần. Điều này thể hiện sự cải thiện đáng kể về hiệu quả. Đã có nhiều nỗ lực trong quá khứ, nhưng bất kể mức độ nén được thực hiện như thế nào, đều cần thêm bộ nhớ (chi phí phụ), điều này gây ra những thách thức đáng kể cho việc triển khai. Tuy nhiên, TurboQuant mang tính đột phá ở chỗ nó tự loại bỏ bộ nhớ bổ sung đó thông qua các thủ thuật toán học (chuyển đổi vectơ sang tọa độ cực + kiểm tra lỗi 1 bit). Do đó, kết luận là: - Các cuộc hội thoại dài hơn có thể thực hiện được trên cùng một GPU - Chi phí vận hành dịch vụ AI được giảm - Có thể sử dụng cửa sổ ngữ cảnh lớn hơn trong các mô hình cục bộ Đây là kết quả. Một người tên Prince, làm việc tại MLX (một hệ điều hành để chạy các mô hình LLM cục bộ như Ollama), đã trực tiếp triển khai điều này trên MLX và thử nghiệm, và kết quả như sau. Phương pháp kiểm tra: Kiểm tra "tìm kim trong đống rơm" với mô hình Qwen3.5-35B-A3B (8.5K, 32.7K, 64.2K ngữ cảnh) - 6/6 câu trả lời đúng (ở tất cả các mức lượng tử hóa) - TurboQuant 2.5-bit: Bộ nhớ cache KV giảm 4.9 lần - TurboQuant 3.5-bit: Bộ nhớ cache KV giảm 3.8 lần - Không mất độ chính xác (Thật không thể tin được...) Thực tế, tôi cũng đang chạy Qwen 27b trên Mac Mini 64GB thông qua Ollama. Cụ thể hơn, tôi đang chạy mô hình Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled. Mặc dù mô hình được tinh chế hoạt động tốt hơn và nhanh hơn so với chạy Qwen thô, tốc độ vẫn chậm đến mức khó chịu. Nếu bộ nhớ cache KV giảm từ 4 đến 5 lần như tính toán, chúng ta có thể thấy hiệu năng vượt quá 100k+ trên cùng 64GB RAM, chuyển từ cửa sổ ngữ cảnh 32k... và có khả năng chạy các mô hình lớn hơn mô hình hiện đang hoạt động. Nếu bạn đang có kế hoạch chạy các mô hình cục bộ trên Mac Mini, hoặc hiện đang làm như vậy, đây chắc chắn là tin đáng chú ý. Thêm chi tiết và nguồn tham khảo
OPUS
1.1%
avatar
웹3 솔라나 광기 연구실
03-15
Một sự thật mà nhiều người không biết: Giao tiếp với AI bằng tiếng Hàn tốn kém hơn từ 50% đến 70%. Trong tiếng Anh, xấp xỉ một từ tương ứng với một token. "Hello" là 1 token, và "artificial intelligence" là 2 token. Tuy nhiên, tiếng Hàn thì khác một chút. "안녕하세요" (Hello) được chia thành 2 hoặc 3 token. Do cấu trúc tổ hợp, Hangul được thiết kế để sử dụng nhiều token hơn tiếng Anh. Viết cùng một nội dung bằng tiếng Hàn tiêu tốn khoảng 1,52 lần token so với viết bằng tiếng Anh. Vì chi phí API tỷ lệ thuận với token, nên việc giao tiếp bằng tiếng Hàn tốn kém hơn tới 50% đến 70% cho cùng một nội dung. Hơn nữa, nếu bạn nhận được phản hồi của AI bằng tiếng Hàn, thì chi phí token đầu ra cũng tốn kém hơn từ 50% đến 70%. Về vấn đề này, một số người đã đề cập đến các kết quả nghiên cứu khác (arxiv.org/pdf/2507.00246), Đây là một nghiên cứu chỉ kiểm tra toán học, và thậm chí còn loại trừ hoàn toàn các mô hình chúng ta thường sử dụng, chẳng hạn như GPT và Claude. Các mô hình này nhận RLHF dựa trên tiếng Anh, vì vậy kết quả có thể khác nhau. Các mô hình được sử dụng trong nghiên cứu này là DeepSeek R1, Qwen 2.5 và Qwen 3, vì vậy tất cả đều là các mô hình LLM có nguồn gốc từ Trung Quốc… Ngoài ra, tiền đề rằng "giảm token = hiệu quả" có phần có vấn đề. Ngay cả khi suy nghĩ bằng tiếng Hàn làm giảm số lượng token, chi phí của một token tiếng Hàn vẫn cao hơn một token tiếng Anh (số byte, chi phí xử lý). Vì vậy, tóm lại, nếu bạn thường xuyên sử dụng AI và liên tục đạt đến giới hạn tốc độ, tôi khuyên bạn nên giao tiếp bằng tiếng Anh, coi đó như một hình thức luyện tập tiếng Anh tạm thời nhé haha.
GPT
0%
loading indicator
Loading..