GPT-5는 내면의 악마인 클로드를 능가하기 위해 온갖 수단을 동원해 속인다.

avatar
36氪
08-18
이 기사는 기계로 번역되었습니다
원문 표시

GPT5가 마침내 출시되었지만, GPT3.5, Sora 등과 비교했을 때 사람들에게 충격을 주지 못했습니다. 긍정적으로 말하자면, OpenAI는 전설적인 선물 거래 왕의 신분을 포기하고 대규모 모델의 구현 및 응용에 집중했습니다. 이는 실제로 발표회에서 OpenAI가 GPT-5의 프로그래밍 능력을 특별히 강조한 이유를 설명해줍니다. 결국 올해 AI 코딩만큼 실용적인 AI 방향은 없었으니까요. 여러 AI IDE 도구들도 GPT5에 즉시 통합되었는데, 이는 과거에는 2개월 안에 누구도 사용할 수 없었던 것입니다.

[이하 생략]

프롬프트: SWE‑Bench Verified 데이터베이스 쿼리어를 제작하여 SWE‑Bench Verified의 문제와 문제 링크, 평가 기준을 쉽게 조회할 수 있는 기능을 구현하세요.

GPT5 생성 과정은 비교적 순조로웠으며, 돌이킬 수 없는 버그는 발생하지 않았습니다. 첫 번째 버전은 11개 프로젝트만 표시했지만, 한 차례 소통 후 500개를 완성했습니다.

GPT5로 제작한 버전 미리보기: http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io

이후 동일한 프롬프트로 클로드-4-소넷으로 생성했을 때, 클로드-4-소넷의 첫 시도 성공률이 GPT5보다 명백히 낮았습니다. 예를 들어 웹페이지가 표시되지 않는 일반적인 문제가 있어 클로드와 여러 차례 상호작용해야 해결할 수 있었습니다.

클로드-4-소넷으로 제작한 버전 미리보기: http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io

UI 측면에서 두 모델 모두 MUI 프레임워크를 사용해 시각적 스타일에 큰 차이가 없었습니다. 하지만 세부 사항 측면에서 클로드-4-소넷이 생성한 웹페이지가 분명히 더 우수했습니다. 반응형 레이아웃이 더 뛰어나 다양한 화면 크기에서 우아하게 표현되었고, 외부 링크 정보도 더 합리적으로 구성되었습니다. 예를 들어 프로젝트의 이슈와 세부 정보가 명확하게 분포된 반면, GPT5가 생성한 페이지는 데이터베이스 출처(HuggingFace)를 "노출"했고 콘텐츠 배열 논리도 다소 혼란스러웠습니다.

기능 측면에서 GPT5는 필터링 기능에서 두드러진 성과를 보였으며, 저장소 태그 수가 완전한(10개) 반면 클로드-4-소넷은 8개였습니다. 하지만 상호작용 경험 측면에서 클로드-4-소넷의 필터링 작업이 더 직관적이고 사용하기 쉬웠으며, 모바일 환경을 위한 전용 필터링 입구를 제공해 작업 단계를 줄였습니다.

더 객관적인 평가를 위해 제미니 2.5 프로를 도입해 두 프로젝트를 평가했습니다. 결과는 클로드-4-소넷이 생성한 프로젝트가 거의 모든 핵심 차원에서 GPT5보다 우수했습니다. 전자는 모듈식 아키텍처를 핵심으로 하여 구성 요소를 기능별로 구분하고 맞춤형 훅을 통해 데이터와 뷰를 분리하여 유지보수성과 가독성이 더 우수했습니다. 후자는 평면화된 구성 요소 구조를 채택해 데이터 논리와 UI가 높게 결합되어 프로토타입 검증 애플리케이션에 가까웠습니다.

전체 기능 경험 측면에서 클로드-4-소넷은 검색, 보기 전환, 반응형 레이아웃 등의 기능을 통합했을 뿐만 아니라 사이드바 세부 정보, 모바일 전용 필터링 등 현대적 상호작용 방식으로 작업 경로를 단축했습니다. 반면 GPT5는 기존의 페이지 이동 방식에 의존해 작업 경로가 더 길었습니다. 전반적으로 클로드-4-소넷은 코드 품질, 기능 깊이, 사용자 경험 면에서 더 성숙한 소프트웨어 엔지니어링 사고와 더 넓은 애플리케이션 시나리오 적용 범위를 보여주었으며, GPT5의 장점은 주로 특정 기능의 완전성과 구현 속도에 집중되어 있었습니다.

제미니의 평가를 보고 나서 OpenAI가 왜 23개의 문제를 적게 다뤘는지 이해할 수 있을 것 같습니다.

테스트로 돌아가면, 대규모 언어 모델의 능력에 영향을 미치는 변수는 너무 많습니다. 데이터셋 구성, 추론 전략, 컨텍스트 관리, 도구 호출 능력, 심지어 IDE 자체의 특성까지 모두 결과에 뚜렷한 변동을 줄 수 있습니다. 아마도 다른 작업에서는 GPT5의 성능이 더 좋을 수 있고, IDE를 바꾸면 같은 모델도 다른 점수를 낼 수 있을 것입니다. 하지만 결국 이것은 GPT5입니다. 과거에 이번 대규모 언어 모델의 평가와 거품은 OpenAI가 혼자 짊어지고 있다고 농담했었는데, 이제 그 무거운 짐을 조금은 내려놓을 수 있을 것 같습니다.

AI 코딩 분야에서 순위표는 언제나 단편적인 것일 뿐입니다. 진정으로 생산성을 결정하는 것은 실제 개발 환경에서의 모델 안정성, 유지보수성, 도구 체인과의 호환성, 그리고 복잡한 애플리케이션 시나리오에서도 여전히 사용 가능하고 신뢰할 수 있는 코드를 제공할 수 있는 제품입니다.

본문은 위챗 공식 계정 "실리콘 사람 Pro"에서 가져왔으며, 작성자는 동다오리, 36크에서 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트