avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
1,596,811 người theo dõi trên Twitter
Theo dõi
co-founder @HedgehogLabHQ @Project_DARC
Bài đăng
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-27
Zhang Xuefeng liên tục nhấn mạnh rằng AI = mô hình toán học = toán học. Deepseek được thành lập bởi các tiến sĩ toán học. Toán học là một ngành học đa năng. Sau khi tốt nghiệp tiến sĩ toán học, bạn có thể dễ dàng chuyển sang lĩnh vực công nghệ tài chính, internet, trí tuệ nhân tạo hoặc chất bán dẫn. Có hai khái niệm cốt lõi mà tôi đã thảo luận trong gần 10 năm qua. Một điều cần lưu ý là phép tính là phép tính, mô hình là mô hình, và toán học là toán học. Khoa học máy tính, kỹ thuật điện, hàng không vũ trụ, kỹ thuật cơ khí, tài chính — lượng lớn lý thuyết được thể hiện bằng các công thức tính toán. Hầu hết những người không hiểu về toán học hoặc các lĩnh vực này chắc chắn sẽ cho rằng... "Công thức toán học = toán học" Hiểu đúng nhất là mỗi ngành nghề đều có hơn chục khóa học, tương ứng với hơn chục lĩnh vực khác nhau, lớn nhỏ. Tất cả các lý thuyết và kiến ​​thức chuyên môn trong các lĩnh vực này phải được thể hiện bằng công thức và ký hiệu, sử dụng các công cụ cơ bản như ma trận, phép tính vi phân và phép tính vi phân, và xác suất. Tuy nhiên, bản chất của những lý thuyết và kiến ​​thức chuyên môn này nằm ở chính kiến ​​thức chuyên môn đó. Chúng được thể hiện bằng các ký hiệu và công thức, nhưng điều đó không có nghĩa là "tất cả kiến ​​thức chuyên môn đều bằng toán học". Nhiều người tốt nghiệp trường dạy nghề và những người chỉ có bằng cao đẳng không hiểu nguyên tắc này. Họ dễ dàng nói ra những câu như "ký hiệu = toán học", "mô hình hóa = toán học", "những gì trông giống như công thức toán học = toán học", "nếu bạn học toán, bạn có thể giải quyết tất cả các công thức và bài toán trong tất cả các chuyên ngành của mình", và "nếu bạn học toán đến trình độ tiến sĩ, bạn có thể giải quyết tất cả các vấn đề toán học trong tài chính, internet, trí tuệ nhân tạo, chất bán dẫn, vật liệu và kỹ thuật cơ khí". Cách hiểu đúng đắn nhất là... "Các công thức, ký hiệu, công cụ, lý thuyết và mô hình = các biểu hiện ký hiệu định lượng của kiến ​​thức trong các chuyên ngành và lĩnh vực nhỏ khác nhau" - hoàn toàn không liên quan gì đến lý thuyết toán học. Một điểm nữa cần lưu ý là toán học vẫn là toán học, và toán học sẽ luôn luôn là toán học. Lĩnh vực toán học có những ranh giới rất rõ ràng và được xác định cụ thể, cho dù đó là bậc đại học, thạc sĩ hay tiến sĩ. Các chuyên ngành toán học bao gồm hình học, đại số, lý thuyết số, tổ hợp, mật mã học, giải tích, tôpô học, v.v. Hãy nhớ rằng, toán học chỉ là toán học, và toán học đơn giản chỉ là toán học. Sinh viên chuyên ngành toán học không gì khác ngoài toán học. Một sinh viên chuyên ngành toán học sẽ không dạy bạn cách viết mã PyTorch, cấu hình CUDA, xây dựng ResNet từ đầu, hoặc huấn luyện và tinh chỉnh Transformer. Càng ít khả năng hơn nữa là họ sẽ dạy bạn về máy học cổ điển, lý thuyết điều khiển cổ điển, động lực chất lỏng hàng không vũ trụ cổ điển và phương pháp phần tử hữu hạn — bởi vì những thứ này hoàn toàn không phải là toán học và không thuộc về toán học. Đừng tin những câu nói như "Nếu bạn học toán, bạn có thể dễ dàng chuyển sang bất kỳ ngành học nào khác" hoặc "Toán học là ngành học cơ bản nhất".
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-23
Nhiều người muốn tự tay tạo ra các tác nhân AI hoặc tác nhân lập trình, với hy vọng tự mình xây dựng một robot lập trình toàn năng. Như tôi đã nhiều lần đề cập, từ tác nhân SWE ban đầu, đến cơ chế quản lý ngữ cảnh phức tạp của kỷ nguyên con trỏ, đến mã Claude ban đầu, đến các cơ chế bộ nhớ phức tạp khác nhau sau đó, đến chế độ lập kế hoạch, và sau đó là một tác nhân chính điều khiển nhiều tác nhân phụ và các tác vụ nền... Công nghệ của chính các tác nhân đã trải qua ba hoặc lần cuộc cách mạng công nghiệp chỉ trong vòng hai hoặc ba năm. Bạn có thể hiểu rằng thiết kế của chỉ một công cụ duy nhất, tác nhân lập trình, đã trải qua lần lần cải tiến, tương tự như xe ngựa kéo, tàu hỏa, ô tô, máy bay và tên lửa. Hôm nay tôi phải nói với các bạn rằng việc xây dựng một SWE Agent cơ bản từ đầu là cần thiết, bởi vì nó mang tính giáo dục, giống như việc xây dựng một hệ điều hành hoặc trình biên dịch cách đây 10 năm. Đây là một phần của khóa học thực hành. Tuy nhiên, nếu bạn muốn nắm bắt các công cụ như Codex, Gemini CLI hoặc Claude Code, bạn cần phải xem xét mã nguồn của các dự án này và thấy được sự phức tạp trong thiết kế của chúng. Ngay cả vào thời kỳ hoàng kim của Rook Coder, Cline và Aider, những sản phẩm mã nguồn mở hàng đầu ở Thung lũng Silicon chỉ cách đây một năm, giờ đây cũng đã tụt hậu so với Codex và Claude Code, trở nên hoàn toàn lỗi thời. Chưa kể đến một vài công ty lớn trong nước đã loay hoay với ba phần mềm mã hóa của họ, vốn đã hoàn toàn lỗi thời so với Claude Code và CodeX. Ngay cả với sự khác biệt chỉ nửa thế hệ, điều đó cũng gần như tương đương với một đầu máy hơi nước so với một tên lửa khổng lồ, và khoảng cách này sẽ tiếp tục nới rộng trong thời gian ngắn. Tôi phải cảnh báo mọi người rằng Claude Code và CodeX rất có thể sẽ trở thành thứ rác rưởi tiếp theo của Chrome. Mặc dù chúng có thể tệ hại, nhưng về mặt khách quan, chúng sẽ trở thành tiêu chuẩn thực tế của ngành. Kết quả cuối cùng là tất cả các phần mềm lập trình trên thị trường và Claude Code đều lạc hậu hơn nhau ba hoặc bốn thế hệ, vì vậy tất cả đều trở nên hèn nhát và quay lại bán các API giá rẻ. Họ tự cấu hình các API trong Claude Code, và Claude Code trở thành ông vua của mã nguồn đóng, trong khi Codex trở thành ông vua của mã nguồn mở, hai công ty chia sẻ thị trường một cách ngang bằng. Những người khác không còn hiểu hết các chi tiết kỹ thuật của Codex và Claude Code, cũng giống như việc bạn không thể hiểu hết mã mã nguồn mở của Chromium vậy. Tôi chỉ muốn nói với các bạn rằng sau ba năm liên tục cải tiến, độ phức tạp của việc lập trình các tác nhân hiện nay đã khác biệt rất nhiều so với trước đây. Ngay cả những công ty tầm cỡ như Alibaba, ByteDance và nhóm "Sáu chú hổ nhỏ" của LLM cũng khó có thể bị các đối thủ ở Thung lũng Silicon bỏ lại phía sau; họ đơn giản là không thể bắt kịp.
CODEX
0%
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-21
Nội dung chủ đề
Thế hệ tiếp theo của các bài kiểm tra hiệu năng LLM không nên được thực hiện trên swe-bench lite/verified/pro/ultra nữa. Mỗi tháng, một nhóm kín gồm 5000 vấn đề được chọn ngẫu nhiên trên GitHub sẽ được chạy bằng cùng một bộ công cụ kiểm thử trên tất cả các mô hình, và một người đóng vai trò trọng tài sẽ viết các trường hợp kiểm thử để xác định sự thành công. Vì các vấn đề được chọn ngẫu nhiên, nên không cần phải lo lắng về số lượng và tỷ lệ phần trăm các vấn đề đã được giải quyết; chỉ cần nhìn vào thứ hạng tương đối là được. Điều này loại bỏ những lo ngại về việc sử dụng swe-bench để tinh chỉnh hoặc thậm chí gian lận, đồng thời loại bỏ những lo lắng về các yếu tố không thể kiểm soát như khả năng của nhà cung cấp A trong việc tái tạo kết quả trong khi nhà cung cấp B thì không, hoặc nhà cung cấp C chọn lọc kết quả tốt nhất. Bạn chỉ cần kiểm tra bảng xếp hạng chính chính thức mới nhất của tháng này. Phương pháp này tốt hơn nhiều so với phương pháp trước đây là chạy đồng thời hai mô hình và để người dùng tự bỏ phiếu xem mô hình bên trái hay bên phải tốt hơn. Cần lưu ý rằng bảng xếp hạng này không có tham khảo chiều dọc. Có lẽ mô hình A, xếp hạng nhất vào tháng 3, đã giải quyết được 60% vấn đề, trong khi mô hình B, xếp hạng nhất vào tháng 4, chỉ giải quyết được 40% vấn đề. Điều này là do các vấn đề trong tháng 3 và tháng 4 hoàn toàn khác nhau, nên không cần thiết phải so sánh theo chiều dọc. Bạn chỉ cần nhìn vào thứ hạng tương đối của tháng này là đủ hiểu. Đây mới chính là trận đấu cricket ảo thực sự.
LITE
0%
loading indicator
Loading..