lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

1,596,811명의 트위터 팔로워

팔로우하기

co-founder @HedgehogLabHQ @Project_DARC

포스팅

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

이 말은 수없이 반복했습니다! 대부분의 스킬은 그저 맥락을 오염시키는 존재일 뿐입니다. 거창한 이름만 붙여놓았죠. 이 스킬은 계획 수립에 도움이 된다, 저 스킬은 심층 연구에 도움이 된다, 이 스킬은 기본적인 코딩 원칙을 정의한다, 저 스킬은 가이드라인을 가르쳐준다 등등. 스킬 100개를 추가하는 건 마치 머릿속에 아버지 100명을 더하는 것과 같습니다. 전부 공허한 조언, 규칙, 지침, 계획일 뿐이죠. 스킬은 코딩 에이전트에서 가장 큰 개념적 사기입니다.

真的做实际项目时，才会发现Skill的不稳定性实在让人头痛，只好全部改成Python流固定下来，也更好微调。

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

장쉐펑은 AI는 수학적 모델링, 즉 수학이라고 거듭 강조했습니다. 딥시크는 수학 박사들이 설립한 회사입니다. 수학은 만능 재주꾼과 같습니다. 수학 박사 학위를 받으면 금융 기술, 인터넷, AI, 반도체 등 어떤 분야로든 쉽게 진출할 수 있습니다. 제가 거의 10년 동안 이야기해 온 두 가지 핵심 개념이 있습니다. 첫째는 계산은 계산이고, 모델은 모델이며, 수학은 수학이라는 점입니다. 컴퓨터 과학, 전기 공학, 항공 우주 공학, 기계 공학, 금융 등 대량 이론들이 계산 공식을 사용하여 표현됩니다. 수학이나 이러한 분야를 이해하지 못하는 대부분의 사람들은 분명히 그렇게 생각할 것입니다... "수학 공식 = 수학" 진정으로 올바른 이해는 모든 산업에는 십여 개 이상의 교육 과정이 있으며, 이는 크고 작은 십여 개 이상의 다양한 분야에 해당한다는 것입니다. 이러한 분야의 모든 이론과 전문 지식은 행렬, 미적분, 확률과 같은 기본적인 도구를 사용하여 공식과 기호로 표현되어야 합니다. 하지만 이러한 이론과 전문 지식의 본질은 바로 그 전문 지식 자체에 있습니다. 그것들은 기호와 공식으로 표현되지만, 그렇다고 해서 "모든 전문 지식이 수학이다"라는 의미는 아닙니다. 전문대학 졸업생이나 2년제 대학 학위 소지자 중 상당수는 이러한 원리를 이해하지 못합니다. 그들은 "기호 = 수학", "모델링 = 수학", "수학 공식처럼 보이는 것은 모두 수학", "수학을 공부하면 모든 전공 분야의 공식과 문제를 풀 수 있다", "박사 과정까지 수학을 공부하면 금융, 인터넷, 인공지능, 반도체, 재료, 기계 공학 분야의 모든 수학 문제를 풀 수 있다"와 같은 말을 쉽게 내뱉습니다. 진정으로 올바른 이해는 다음과 같습니다... "공식, 기호, 도구, 이론 및 모델은 다양한 세부 전문 분야에서 지식을 양적으로 상징적으로 표현한 것"이며, 수학 이론 자체와는 전혀 관련이 없습니다. 또 하나 중요한 점은 수학은 수학이고, 앞으로도 항상 수학일 것이라는 사실입니다. 수학 분야는 학부, 석사, 박사 과정 모두 매우 명확하고 잘 정의된 경계를 가지고 있습니다. 수학 전공에는 기하학, 대수학, 정수론, 조합론, 암호학, 해석학, 위상수학 등이 있습니다. 명심하세요, 수학은 그저 수학일 뿐이고, 수학은 그저 수학일 뿐입니다. 수학 전공은 다름 아닌 수학 그 자체입니다. 수학 전공자는 PyTorch 작성법, CUDA 설정법, ResNet을 처음부터 구축하는 방법, 또는 Transformer를 학습시키고 튜닝하는 방법을 가르쳐주지 않습니다. 그들이 여러분에게 고전적인 머신러닝, 고전적인 제어 이론, 고전적인 항공우주 유체 역학, 유한 요소법을 가르칠 가능성은 훨씬 더 낮습니다. 왜냐하면 이것들은 전혀 수학이 아니며 수학에 속하지도 않기 때문입니다. "수학을 공부하면 다른 전공으로 쉽게 전과할 수 있다"거나 "수학은 모든 전공의 어머니이다"와 같은 말은 믿지 마세요.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

전체 시장이 스페이스X, 오픈AI, 앤스로픽의 상장 앞두고 유동성을 끌어들이고 있습니다. 이 세 회사는 향후 수십 년 동안 미국의 운명을 결정할 것이며, 실수는 용납될 수 없습니다.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

많은 사람들이 전지전능한 프로그래밍 로봇을 만들고자 하는 희망을 품고 자신만의 AI 에이전트나 코딩 에이전트를 개발하려고 합니다. 초기 SWE 에이전트부터 커서 시대의 정교한 컨텍스트 관리, 초기 클로드 코드, 다양한 고급 메모리 메커니즘, 계획 모드, 그리고 여러 하위 에이전트와 백엔드 작업을 제어하는 메인 에이전트에 이르기까지, 에이전트 기술 자체는 불과 2~3년 만에 3~4번의 산업 혁명을 겪었다고 저는 여러 차례 강조해 왔습니다. 코딩 에이전트 도구의 설계만 해도 마차, 기차, 자동차, 비행기, 로켓처럼 수많은 반복적인 발전을 거듭해 왔다고 할 수 있습니다. 오늘 저는 모든 분들께 초기 SWE 에이전트를 직접 만들어 보는 것이 중요하다고 말씀드리고 싶습니다. 마치 10년 전 누구나 운영체제나 컴파일러를 만들 수 있었던 것처럼, 실습 위주의 학습 과정의 일부로서 교육적 가치가 있기 때문입니다. 하지만 CodeX, Gemini CLI, Claude Code와 같은 도구를 따라잡으려면 해당 프로젝트의 코드를 직접 살펴보고 얼마나 복잡한 설계인지 파악해야 합니다. Rookie Coder, Cline, Aider 같은 제품들이 한 해 전만 해도 실리콘 밸리에서 최고 수준의 오픈 소스 스타로 떠올랐던 것들이 이제는 Codex와 Claude Code에 비해 몇 세대나 뒤쳐져 완전히 구식이 되어버렸습니다. 국내 몇몇 대기업들이 내놓은 세 가지 코딩 에이전트는 Claude Code와 Codex와는 완전히 다른, 어설프게 설계된 제품들입니다. 완전히 다른 시대의 산물이죠. 반 세대 차이만 나도 증기 기관차와 로켓의 차이와 같으며, 그 격차는 단기간에 눈에 띄게 벌어지고 있습니다. 경고하건대, Claude Code와 Codex는 크롬처럼 쓸모없는 존재가 될 가능성이 매우 높습니다. 비록 쓸모없는 존재일지라도, 객관적으로 업계의 사실상 표준이 될 것입니다. 결국 시중에 나와 있는 모든 코딩 에이전트는 Claude Code보다 3~4세대 뒤쳐지게 되고, 결국에는 값싼 API를 팔거나 Claude Code 내에서 API를 수동으로 설정하는 방식으로 전락하게 될 것입니다. 클로드 코드(Claude Code)는 클로즈드 소스의 왕좌를, 코덱스(Codex)는 오픈 소스의 왕좌를 차지하며 시장을 양분할 것입니다. 다른 사람들은 더 이상 코덱스와 클로드 코드의 모든 엔지니어링 세부 사항을 이해할 수 없습니다. 마치 여러분이 크로뮴(Chromium)의 오픈 소스 코드를 모두 이해할 수 없는 것과 같습니다. 단지 3년간의 반복적인 개발을 거쳐 코딩 에이전트의 복잡성이 이제는 엄청나게 증가했다는 점을 말씀드리고 싶습니다. 알리바바, 바이트댄스, 그리고 LLM(Six Little Tigers)과 같은 기업들조차도 실리콘 밸리의 경쟁사들에 비해 크게 뒤처질 가능성이 높으며, 그 격차를 결코 좁힐 수 없을 것입니다.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

차세대 LLM 벤치마크는 더 이상 swe-bench lite/verified/pro/ultra에서 실행해서는 안 됩니다. 대신, 매달 무작위로 선정된 별도의 폐쇄형 플랫폼에서 실행해야 합니다. 이 플랫폼에서는 GitHub에서 5,000개의 이슈를 찾아 모든 모델에 동일한 테스트 환경을 적용하고, 심판 에이전트가 테스트 케이스를 작성하여 성공 여부를 판단합니다. 이슈가 무작위로 선정되므로 해결된 이슈의 수나 비율에 대해 걱정할 필요 없이 상대적인 순위만 확인하면 됩니다. 이러한 방식은 swe-bench를 이용한 미세 조정이나 부정행위에 대한 우려를 없애고, 특정 업체(예: A 업체는 문제를 재현할 수 있지만 B 업체는 재현할 수 없는 경우, C 업체가 최상의 결과만 선택적으로 활용하는 경우)의 통제 불가능한 요소를 제거합니다. 모든 사용자는 해당 월의 최신 공식 순위만 확인하면 됩니다. 이는 두 모델을 동시에 실행하고 사용자가 수동으로 왼쪽 또는 오른쪽 모델 중 어느 쪽이 더 나은지 투표하는 기존 방식보다 훨씬 우수합니다. 단, 이 순위의 장기적인 비교는 의미가 없습니다. 3월에 1위를 차지한 모델 A가 문제의 60%를 해결했고, 4월에 1위를 차지한 모델 B는 40%만 해결했을 수도 있습니다. 왜냐하면 3월과 4월의 문제는 완전히 다르기 때문에 장기적인 비교는 무의미하기 때문입니다. 이번 달의 상대적 순위만 봐도 알 수 있습니다. 이것이 바로 진정한 사이버 크리켓의 승부입니다.

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

앞서 언급했듯이 목표 지향적인 접근 방식이 최적의 해결책입니다. 하위 에이전트 하나가 계속 실행되는 동안, 마스터 에이전트는 작업 완료 여부와 모든 기준이 100% 충족되었는지 지속적으로 확인합니다. 기준이 충족되면 전체 프로세스가 중지되고, 마스터 에이전트는 모든 테스트 케이스가 성공적으로 실행될 때까지 하위 에이전트에게 추가 작업을 반복적으로 요청합니다. 이 방식을 통해 20시간 이상의 작업을 정확한 결과로 완료할 수 있습니다.

RainbowBird | 洛灵

为什么大家的 Coding Agent 可以一直写啊，不需要 Human in the loop 的吗？为什么我交给它一个任务，如果碰到了困难就直接和我说“下一步继续”，就卡住了，我说“我去睡觉了”也不行😭

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

예전에는 OpenAI의 모델들이 오픈소스가 아니어서, Distille이나 BERT에 대해 끊임없이 헛소리를 지껄이는 얼간이 집단의 불문율을 어긴 셈이었습니다. 많은 사람들이 OpenAI가 오픈소스가 아니라고 비난했죠. 하지만 이제 OpenAI가 아무 이유 없이 계정을 차단하지 않고, CodeX도 쓸만해졌고, 오픈소스까지 공개되자, 많은 사람들이 감사의 눈초리를 보내고 있습니다. "저희 OpenAI는 진정으로 오픈소스입니다!"

Loading..