lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

1,596,811 người theo dõi trên Twitter

Theo dõi

co-founder @HedgehogLabHQ @Project_DARC

Bài đăng

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Tôi đã nói điều này vô số, vô số lần! Hầu hết các kỹ năng chỉ làm rối loạn ngữ cảnh, gán cho mỗi kỹ năng một cái tên quá lớn: kỹ năng này giúp bạn lập kế hoạch, kỹ năng kia giúp bạn nghiên cứu chuyên sâu, kỹ năng này định nghĩa các nguyên tắc lập trình cơ bản, kỹ năng khác dạy bạn các hướng dẫn. Việc thêm 100 kỹ năng cũng giống như thêm 100 "người cha" vào đầu bạn - toàn những lời khuyên, quy tắc, hướng dẫn và kế hoạch sáo rỗng. Kỹ năng là trò lừa bịp lớn nhất về mặt khái niệm trong lập trình phần mềm tự động.

真的做实际项目时，才会发现Skill的不稳定性实在让人头痛，只好全部改成Python流固定下来，也更好微调。

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Zhang Xuefeng liên tục nhấn mạnh rằng AI = mô hình toán học = toán học. Deepseek được thành lập bởi các tiến sĩ toán học. Toán học là một ngành học đa năng. Sau khi tốt nghiệp tiến sĩ toán học, bạn có thể dễ dàng chuyển sang lĩnh vực công nghệ tài chính, internet, trí tuệ nhân tạo hoặc chất bán dẫn. Có hai khái niệm cốt lõi mà tôi đã thảo luận trong gần 10 năm qua. Một điều cần lưu ý là phép tính là phép tính, mô hình là mô hình, và toán học là toán học. Khoa học máy tính, kỹ thuật điện, hàng không vũ trụ, kỹ thuật cơ khí, tài chính — lượng lớn lý thuyết được thể hiện bằng các công thức tính toán. Hầu hết những người không hiểu về toán học hoặc các lĩnh vực này chắc chắn sẽ cho rằng... "Công thức toán học = toán học" Hiểu đúng nhất là mỗi ngành nghề đều có hơn chục khóa học, tương ứng với hơn chục lĩnh vực khác nhau, lớn nhỏ. Tất cả các lý thuyết và kiến thức chuyên môn trong các lĩnh vực này phải được thể hiện bằng công thức và ký hiệu, sử dụng các công cụ cơ bản như ma trận, phép tính vi phân và phép tính vi phân, và xác suất. Tuy nhiên, bản chất của những lý thuyết và kiến thức chuyên môn này nằm ở chính kiến thức chuyên môn đó. Chúng được thể hiện bằng các ký hiệu và công thức, nhưng điều đó không có nghĩa là "tất cả kiến thức chuyên môn đều bằng toán học". Nhiều người tốt nghiệp trường dạy nghề và những người chỉ có bằng cao đẳng không hiểu nguyên tắc này. Họ dễ dàng nói ra những câu như "ký hiệu = toán học", "mô hình hóa = toán học", "những gì trông giống như công thức toán học = toán học", "nếu bạn học toán, bạn có thể giải quyết tất cả các công thức và bài toán trong tất cả các chuyên ngành của mình", và "nếu bạn học toán đến trình độ tiến sĩ, bạn có thể giải quyết tất cả các vấn đề toán học trong tài chính, internet, trí tuệ nhân tạo, chất bán dẫn, vật liệu và kỹ thuật cơ khí". Cách hiểu đúng đắn nhất là... "Các công thức, ký hiệu, công cụ, lý thuyết và mô hình = các biểu hiện ký hiệu định lượng của kiến thức trong các chuyên ngành và lĩnh vực nhỏ khác nhau" - hoàn toàn không liên quan gì đến lý thuyết toán học. Một điểm nữa cần lưu ý là toán học vẫn là toán học, và toán học sẽ luôn luôn là toán học. Lĩnh vực toán học có những ranh giới rất rõ ràng và được xác định cụ thể, cho dù đó là bậc đại học, thạc sĩ hay tiến sĩ. Các chuyên ngành toán học bao gồm hình học, đại số, lý thuyết số, tổ hợp, mật mã học, giải tích, tôpô học, v.v. Hãy nhớ rằng, toán học chỉ là toán học, và toán học đơn giản chỉ là toán học. Sinh viên chuyên ngành toán học không gì khác ngoài toán học. Một sinh viên chuyên ngành toán học sẽ không dạy bạn cách viết mã PyTorch, cấu hình CUDA, xây dựng ResNet từ đầu, hoặc huấn luyện và tinh chỉnh Transformer. Càng ít khả năng hơn nữa là họ sẽ dạy bạn về máy học cổ điển, lý thuyết điều khiển cổ điển, động lực chất lỏng hàng không vũ trụ cổ điển và phương pháp phần tử hữu hạn — bởi vì những thứ này hoàn toàn không phải là toán học và không thuộc về toán học. Đừng tin những câu nói như "Nếu bạn học toán, bạn có thể dễ dàng chuyển sang bất kỳ ngành học nào khác" hoặc "Toán học là ngành học cơ bản nhất".

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Toàn bộ thị trường đang đổ dồn thanh khoản để chuẩn bị cho các đợt IPO của SpaceX, OpenAI và Anthropic. Ba công ty này sẽ quyết định vận mệnh của Hoa Kỳ trong nhiều thập kỷ tới, và không được phép mắc sai lầm.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Nhiều người muốn tự tay tạo ra các tác nhân AI hoặc tác nhân lập trình, với hy vọng tự mình xây dựng một robot lập trình toàn năng. Như tôi đã nhiều lần đề cập, từ tác nhân SWE ban đầu, đến cơ chế quản lý ngữ cảnh phức tạp của kỷ nguyên con trỏ, đến mã Claude ban đầu, đến các cơ chế bộ nhớ phức tạp khác nhau sau đó, đến chế độ lập kế hoạch, và sau đó là một tác nhân chính điều khiển nhiều tác nhân phụ và các tác vụ nền... Công nghệ của chính các tác nhân đã trải qua ba hoặc lần cuộc cách mạng công nghiệp chỉ trong vòng hai hoặc ba năm. Bạn có thể hiểu rằng thiết kế của chỉ một công cụ duy nhất, tác nhân lập trình, đã trải qua lần lần cải tiến, tương tự như xe ngựa kéo, tàu hỏa, ô tô, máy bay và tên lửa. Hôm nay tôi phải nói với các bạn rằng việc xây dựng một SWE Agent cơ bản từ đầu là cần thiết, bởi vì nó mang tính giáo dục, giống như việc xây dựng một hệ điều hành hoặc trình biên dịch cách đây 10 năm. Đây là một phần của khóa học thực hành. Tuy nhiên, nếu bạn muốn nắm bắt các công cụ như Codex, Gemini CLI hoặc Claude Code, bạn cần phải xem xét mã nguồn của các dự án này và thấy được sự phức tạp trong thiết kế của chúng. Ngay cả vào thời kỳ hoàng kim của Rook Coder, Cline và Aider, những sản phẩm mã nguồn mở hàng đầu ở Thung lũng Silicon chỉ cách đây một năm, giờ đây cũng đã tụt hậu so với Codex và Claude Code, trở nên hoàn toàn lỗi thời. Chưa kể đến một vài công ty lớn trong nước đã loay hoay với ba phần mềm mã hóa của họ, vốn đã hoàn toàn lỗi thời so với Claude Code và CodeX. Ngay cả với sự khác biệt chỉ nửa thế hệ, điều đó cũng gần như tương đương với một đầu máy hơi nước so với một tên lửa khổng lồ, và khoảng cách này sẽ tiếp tục nới rộng trong thời gian ngắn. Tôi phải cảnh báo mọi người rằng Claude Code và CodeX rất có thể sẽ trở thành thứ rác rưởi tiếp theo của Chrome. Mặc dù chúng có thể tệ hại, nhưng về mặt khách quan, chúng sẽ trở thành tiêu chuẩn thực tế của ngành. Kết quả cuối cùng là tất cả các phần mềm lập trình trên thị trường và Claude Code đều lạc hậu hơn nhau ba hoặc bốn thế hệ, vì vậy tất cả đều trở nên hèn nhát và quay lại bán các API giá rẻ. Họ tự cấu hình các API trong Claude Code, và Claude Code trở thành ông vua của mã nguồn đóng, trong khi Codex trở thành ông vua của mã nguồn mở, hai công ty chia sẻ thị trường một cách ngang bằng. Những người khác không còn hiểu hết các chi tiết kỹ thuật của Codex và Claude Code, cũng giống như việc bạn không thể hiểu hết mã mã nguồn mở của Chromium vậy. Tôi chỉ muốn nói với các bạn rằng sau ba năm liên tục cải tiến, độ phức tạp của việc lập trình các tác nhân hiện nay đã khác biệt rất nhiều so với trước đây. Ngay cả những công ty tầm cỡ như Alibaba, ByteDance và nhóm "Sáu chú hổ nhỏ" của LLM cũng khó có thể bị các đối thủ ở Thung lũng Silicon bỏ lại phía sau; họ đơn giản là không thể bắt kịp.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Nội dung chủ đề

Thế hệ tiếp theo của các bài kiểm tra hiệu năng LLM không nên được thực hiện trên swe-bench lite/verified/pro/ultra nữa. Mỗi tháng, một nhóm kín gồm 5000 vấn đề được chọn ngẫu nhiên trên GitHub sẽ được chạy bằng cùng một bộ công cụ kiểm thử trên tất cả các mô hình, và một người đóng vai trò trọng tài sẽ viết các trường hợp kiểm thử để xác định sự thành công. Vì các vấn đề được chọn ngẫu nhiên, nên không cần phải lo lắng về số lượng và tỷ lệ phần trăm các vấn đề đã được giải quyết; chỉ cần nhìn vào thứ hạng tương đối là được. Điều này loại bỏ những lo ngại về việc sử dụng swe-bench để tinh chỉnh hoặc thậm chí gian lận, đồng thời loại bỏ những lo lắng về các yếu tố không thể kiểm soát như khả năng của nhà cung cấp A trong việc tái tạo kết quả trong khi nhà cung cấp B thì không, hoặc nhà cung cấp C chọn lọc kết quả tốt nhất. Bạn chỉ cần kiểm tra bảng xếp hạng chính chính thức mới nhất của tháng này. Phương pháp này tốt hơn nhiều so với phương pháp trước đây là chạy đồng thời hai mô hình và để người dùng tự bỏ phiếu xem mô hình bên trái hay bên phải tốt hơn. Cần lưu ý rằng bảng xếp hạng này không có tham khảo chiều dọc. Có lẽ mô hình A, xếp hạng nhất vào tháng 3, đã giải quyết được 60% vấn đề, trong khi mô hình B, xếp hạng nhất vào tháng 4, chỉ giải quyết được 40% vấn đề. Điều này là do các vấn đề trong tháng 3 và tháng 4 hoàn toàn khác nhau, nên không cần thiết phải so sánh theo chiều dọc. Bạn chỉ cần nhìn vào thứ hạng tương đối của tháng này là đủ hiểu. Đây mới chính là trận đấu cricket ảo thực sự.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Như tôi đã đề cập trước đây, hướng đến mục tiêu là giải pháp tốt nhất. github.com/lidangzzz/goal-driv...… Một tác nhân phụ tiếp tục hoạt động, trong khi tác nhân chính liên tục xác minh xem công việc đã hoàn thành và các tiêu chí đã được đáp ứng 100% hay chưa. Khi đáp ứng đủ điều kiện, toàn bộ quy trình sẽ dừng lại, cho phép tác nhân chính liên tục yêu cầu tác nhân phụ làm thêm giờ cho đến khi tất cả các trường hợp thử nghiệm được chạy thành công. Điều này dễ dàng hoàn thành hơn 20 giờ làm việc với kết quả chính xác.

RainbowBird | 洛灵

为什么大家的 Coding Agent 可以一直写啊，不需要 Human in the loop 的吗？为什么我交给它一个任务，如果碰到了困难就直接和我说“下一步继续”，就卡住了，我说“我去睡觉了”也不行😭

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

Hồi đó, các mô hình của OpenAI chưa phải là mã nguồn mở, vi phạm những quy tắc bất thành văn của cộng đồng những kẻ ngốc nghếch luôn nói những điều vô nghĩa như "Distill BERT". Một số người đã chỉ trích OpenAI vì không đủ cởi mở. Giờ đây OpenAI không còn tự ý cấm tài khoản nữa, Codex hoạt động tốt trở lại và là mã nguồn mở— rất nhiều người đang bày tỏ lòng biết ơn. "OpenAI của chúng tôi thực sự là một hệ thống mở."

Loading..