avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
1,596,811명의 트위터 팔로워
팔로우하기
co-founder @HedgehogLabHQ @Project_DARC
포스팅
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-27
장쉐펑은 AI는 수학적 모델링, 즉 수학이라고 거듭 강조했습니다. 딥시크는 수학 박사들이 설립한 회사입니다. 수학은 만능 재주꾼과 같습니다. 수학 박사 학위를 받으면 금융 기술, 인터넷, AI, 반도체 등 어떤 분야로든 쉽게 진출할 수 있습니다. 제가 거의 10년 동안 이야기해 온 두 가지 핵심 개념이 있습니다. 첫째는 계산은 계산이고, 모델은 모델이며, 수학은 수학이라는 점입니다. 컴퓨터 과학, 전기 공학, 항공 우주 공학, 기계 공학, 금융 등 대량 이론들이 계산 공식을 사용하여 표현됩니다. 수학이나 이러한 분야를 이해하지 못하는 대부분의 사람들은 분명히 그렇게 생각할 것입니다... "수학 공식 = 수학" 진정으로 올바른 이해는 모든 산업에는 십여 개 이상의 교육 과정이 있으며, 이는 크고 작은 십여 개 이상의 다양한 분야에 해당한다는 것입니다. 이러한 분야의 모든 이론과 전문 지식은 행렬, 미적분, 확률과 같은 기본적인 도구를 사용하여 공식과 기호로 표현되어야 합니다. 하지만 이러한 이론과 전문 지식의 본질은 바로 그 전문 지식 자체에 있습니다. 그것들은 기호와 공식으로 표현되지만, 그렇다고 해서 "모든 전문 지식이 수학이다"라는 의미는 아닙니다. 전문대학 졸업생이나 2년제 대학 학위 소지자 중 상당수는 이러한 원리를 이해하지 못합니다. 그들은 "기호 = 수학", "모델링 = 수학", "수학 공식처럼 보이는 것은 모두 수학", "수학을 공부하면 모든 전공 분야의 공식과 문제를 풀 수 있다", "박사 과정까지 수학을 공부하면 금융, 인터넷, 인공지능, 반도체, 재료, 기계 공학 분야의 모든 수학 문제를 풀 수 있다"와 같은 말을 쉽게 내뱉습니다. 진정으로 올바른 이해는 다음과 같습니다... "공식, 기호, 도구, 이론 및 모델은 다양한 세부 전문 분야에서 지식을 양적으로 상징적으로 표현한 것"이며, 수학 이론 자체와는 전혀 관련이 없습니다. 또 하나 중요한 점은 수학은 수학이고, 앞으로도 항상 수학일 것이라는 사실입니다. 수학 분야는 학부, 석사, 박사 과정 모두 매우 명확하고 잘 정의된 경계를 가지고 있습니다. 수학 전공에는 기하학, 대수학, 정수론, 조합론, 암호학, 해석학, 위상수학 등이 있습니다. 명심하세요, 수학은 그저 수학일 뿐이고, 수학은 그저 수학일 뿐입니다. 수학 전공은 다름 아닌 수학 그 자체입니다. 수학 전공자는 PyTorch 작성법, CUDA 설정법, ResNet을 처음부터 구축하는 방법, 또는 Transformer를 학습시키고 튜닝하는 방법을 가르쳐주지 않습니다. 그들이 여러분에게 고전적인 머신러닝, 고전적인 제어 이론, 고전적인 항공우주 유체 역학, 유한 요소법을 가르칠 가능성은 훨씬 더 낮습니다. 왜냐하면 이것들은 전혀 수학이 아니며 수학에 속하지도 않기 때문입니다. "수학을 공부하면 다른 전공으로 쉽게 전과할 수 있다"거나 "수학은 모든 전공의 어머니이다"와 같은 말은 믿지 마세요.
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-23
많은 사람들이 전지전능한 프로그래밍 로봇을 만들고자 하는 희망을 품고 자신만의 AI 에이전트나 코딩 에이전트를 개발하려고 합니다. 초기 SWE 에이전트부터 커서 시대의 정교한 컨텍스트 관리, 초기 클로드 코드, 다양한 고급 메모리 메커니즘, 계획 모드, 그리고 여러 하위 에이전트와 백엔드 작업을 제어하는 ​​메인 에이전트에 이르기까지, 에이전트 기술 자체는 불과 2~3년 만에 3~4번의 산업 혁명을 겪었다고 저는 여러 차례 강조해 왔습니다. 코딩 에이전트 도구의 설계만 해도 마차, 기차, 자동차, 비행기, 로켓처럼 수많은 반복적인 발전을 거듭해 왔다고 할 수 있습니다. 오늘 저는 모든 분들께 초기 SWE 에이전트를 직접 만들어 보는 것이 중요하다고 말씀드리고 싶습니다. 마치 10년 전 누구나 운영체제나 컴파일러를 만들 수 있었던 것처럼, 실습 위주의 학습 과정의 일부로서 교육적 가치가 있기 때문입니다. 하지만 CodeX, Gemini CLI, Claude Code와 같은 도구를 따라잡으려면 해당 프로젝트의 코드를 직접 살펴보고 얼마나 복잡한 설계인지 파악해야 합니다. Rookie Coder, Cline, Aider 같은 제품들이 한 해 전만 해도 실리콘 밸리에서 최고 수준의 오픈 소스 스타로 떠올랐던 것들이 이제는 Codex와 Claude Code에 비해 몇 세대나 뒤쳐져 완전히 구식이 되어버렸습니다. 국내 몇몇 대기업들이 내놓은 세 가지 코딩 에이전트는 Claude Code와 Codex와는 완전히 다른, 어설프게 설계된 제품들입니다. 완전히 다른 시대의 산물이죠. 반 세대 차이만 나도 증기 기관차와 로켓의 차이와 같으며, 그 격차는 단기간에 눈에 띄게 벌어지고 있습니다. 경고하건대, Claude Code와 Codex는 크롬처럼 쓸모없는 존재가 될 가능성이 매우 높습니다. 비록 쓸모없는 존재일지라도, 객관적으로 업계의 사실상 표준이 될 것입니다. 결국 시중에 나와 있는 모든 코딩 에이전트는 Claude Code보다 3~4세대 뒤쳐지게 되고, 결국에는 값싼 API를 팔거나 Claude Code 내에서 API를 수동으로 설정하는 방식으로 전락하게 될 것입니다. 클로드 코드(Claude Code)는 클로즈드 소스의 왕좌를, 코덱스(Codex)는 오픈 소스의 왕좌를 차지하며 시장을 양분할 것입니다. 다른 사람들은 더 이상 코덱스와 클로드 코드의 모든 엔지니어링 세부 사항을 이해할 수 없습니다. 마치 여러분이 크로뮴(Chromium)의 오픈 소스 코드를 모두 이해할 수 없는 것과 같습니다. 단지 3년간의 반복적인 개발을 거쳐 코딩 에이전트의 복잡성이 이제는 엄청나게 증가했다는 점을 말씀드리고 싶습니다. 알리바바, 바이트댄스, 그리고 LLM(Six Little Tigers)과 같은 기업들조차도 실리콘 밸리의 경쟁사들에 비해 크게 뒤처질 가능성이 높으며, 그 격차를 결코 좁힐 수 없을 것입니다.
CODEX
0%
avatar
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
03-21
스레드
차세대 LLM 벤치마크는 더 이상 swe-bench lite/verified/pro/ultra에서 실행해서는 안 됩니다. 대신, 매달 무작위로 선정된 별도의 폐쇄형 플랫폼에서 실행해야 합니다. 이 플랫폼에서는 GitHub에서 5,000개의 이슈를 찾아 모든 모델에 동일한 테스트 환경을 적용하고, 심판 에이전트가 테스트 케이스를 작성하여 성공 여부를 판단합니다. 이슈가 무작위로 선정되므로 해결된 이슈의 수나 비율에 대해 걱정할 필요 없이 상대적인 순위만 확인하면 됩니다. 이러한 방식은 swe-bench를 이용한 미세 조정이나 부정행위에 대한 우려를 없애고, 특정 업체(예: A 업체는 문제를 재현할 수 있지만 B 업체는 재현할 수 없는 경우, C 업체가 최상의 결과만 선택적으로 활용하는 경우)의 통제 불가능한 요소를 제거합니다. 모든 사용자는 해당 월의 최신 공식 순위만 확인하면 됩니다. 이는 두 모델을 동시에 실행하고 사용자가 수동으로 왼쪽 또는 오른쪽 모델 중 어느 쪽이 더 나은지 투표하는 기존 방식보다 훨씬 우수합니다. 단, 이 순위의 장기적인 비교는 의미가 없습니다. 3월에 1위를 차지한 모델 A가 문제의 60%를 해결했고, 4월에 1위를 차지한 모델 B는 40%만 해결했을 수도 있습니다. 왜냐하면 3월과 4월의 문제는 완전히 다르기 때문에 장기적인 비교는 무의미하기 때문입니다. 이번 달의 상대적 순위만 봐도 알 수 있습니다. 이것이 바로 진정한 사이버 크리켓의 승부입니다.
LITE
0%
loading indicator
Loading..