리우데자네이루의 IT 기관인 아이플란리오(IplanRIO)는 6월 13일 리우 3.5 버전을 공개했습니다. 이 기관은 이 시스템을 "선구적인 모델"이라고 칭하며, 3,970억 개의 매개변수를 포함하고 있으며, 관대한 오픈 소스 라이선스를 채택하고 있고, 개발도상국 도시의 지방 정부가 구축했다고 설명했습니다.
리오 3.5의 출시 시기는 완벽했습니다. 브라질이 월드컵 개막전을 치르는 중이었고, 소셜 미디어는 이미 뜨겁게 달아오르고 있었습니다. 이에 대한 댓글들은 브라질에서 전 세계로 빠르게 퍼져나갔습니다.
하지만 그 모델이 주목을 받은 만큼, 누가 정확히 그 모델을 만들었는지에 대한 논쟁이 빠르게 벌어졌습니다.
원래 모델 카드에는 Rio 3.5가 알리바바의 오픈베이스 모델인 Qwen 3.5 397B의 후속 버전으로, SwiReasoning이라는 새로운 추론 레이어가 추가되었다고 설명되어 있었습니다. 개발 비용은 50만 헤알(Rio 측에서는 확인되지 않음)로 알려졌는데, 이는 미화 약 10만 달러에 해당하며, 시중에 나와 있는 유사한 AI 시스템보다 약 30배 저렴합니다.
이 아키텍처는 전문가 혼합(Mixture-of-Experts) 방식을 채택하고 있어, 3,970억 개의 매개변수 중 약 170억 개만 특정 토큰에 대해 활성화됩니다. 따라서 추론 비용은 표면적인 규모에서 예상되는 것보다 훨씬 저렴합니다. 또한, 이 모델은 이미지와 텍스트를 모두 지원하고 12개 이상의 언어를 처리하며, 완전한 오픈 소스 MIT 라이선스 하에 배포됩니다.
SwiReasoning은 기술적 핵심 요소입니다. 이는 학습이 필요 없는 추론 프레임워크로, 두 가지 모드 사이를 동적으로 전환합니다. 모델이 다음 단어에 대해 확신할 때(확률 분포의 엔트로피가 낮을 때)는 일반 언어로 추론합니다. 불확실할 때는 토큰을 생성하지 않고 숨겨진 내부 상태를 활용하는 잠재 추론으로 전환합니다. IplanRIO는 Rio 3.5가 이러한 기능을 활용하도록 특별히 학습되었으며, 그 결과 벤치마크 수치에서 성능 향상이 나타난다고 밝혔습니다.
자체 보고된 수치는 눈길을 사로잡았습니다. 자율 터미널 명령 실행률을 측정하는 Terminal-Bench 2.1에서 Rio 3.5는 70.8%를 기록하며 Qwen 3.7 Plus(70.3%)와 강력한 DeepSeek v4 Pro(67.9%)를 앞섰습니다.
수학 올림피아드 벤치마크인 IMOAnswerBench에서 Rio 3.5는 정답률 89.5%를 기록했습니다. 거의 풀 수 없는 다중 영역 전문가 시험인 HLE(Humanity's Last Exam)에서는 Rio 3.5가 36.5%를 기록하며 Qwen 3.7 Plus의 34.7%를 앞섰습니다.
한 지방 정부가 가장 중요한 품질 기준에서 주요 모범 사례들을 능가했다. 리우데자네이루 시장이 이에 대해 트윗한 후, 이 기사가 헤드라인을 장식했다.
에두아르도 카발리에레는 "리우데자네이루에서 훈련되고 지난 1년간 리우 시의 공공 자금 지원을 받아 개발된 오픈 AI 모델이 다른 모든 모델을 능가했다"며 "오늘날 전 세계는 리우에서 훈련된 오픈 AI 모델에 대해 이야기하고 있다"고 썼습니다.
"리우에서 훈련받았다"는 말은 완전히 정확한 표현은 아니었다.
상하이에 본사를 둔 오픈소스 AI 연합인 Nex-AGI는 출시 후 며칠 만에 다음과 같은 글을 게시했습니다. "이번 주 Rio 3.5 모델이 인터넷을 뜨겁게 달궜습니다. 반전은 무엇일까요? 바로 저희의 오픈소스 모델인 Nex N2 Pro가 다른 모습으로 등장했다는 점입니다."
그들은 무게를 분석했습니다. 계산은 정확했습니다 . Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5. 검증 스크립트와 전체 GitHub 보고서가 뒤따랐습니다.
증거는 두 부분으로 나뉘었습니다.
첫째, 행동적 측면을 살펴보겠습니다. 넥스는 배포된 모델에서 하드코딩된 "당신은 리오입니다"라는 시스템 프롬프트를 제거하고 120개의 신원 확인 질문을 보냈습니다. 마스크가 제거된 후, 넥스에 따르면 모델은 79.2%의 확률로 자신을 "넥스, 넥스-AGI 소속"이라고 칭했습니다. "리오"라고 칭한 경우는 단 한 번도 없었습니다. 넥스는 또한 모델이 "상하이 혁신 연구소"와 "대규모 모델 생태계 연합"을 언급하며 회사의 구체적인 배경 이야기를 그대로 반복했다고 밝혔습니다. 이는 넥스 자체의 학습 데이터가 다른 회사의 모델에서 나타난 것입니다.
둘째, 수학적인 측면입니다. 진정한 가중치 병합에서는 새 모델의 모든 매개변수가 두 소스 모델을 잇는 직선상에 위치합니다. Nex는 60개 레이어 전체에 걸쳐 이러한 공선성을 측정했으며, 그 결과 0.993이라는 수치가 나왔습니다. 동일한 매개변수 공간에 있는 서로 관련 없는 두 모델이 우연히 0에 가까운 값을 얻는 경우는 드뭅니다. 모든 레이어에서 0.993이라는 수치를 달성한 것은 결코 우연이 아닙니다. 혼합 비율은 α ≈ 0.571로 유지되었으며, 데시멀(Decimal) 셋째 자리까지 안정적인 값을 보였습니다.
기본적으로 거의 60%가 넥스였고, 나머지는 기본 퀀 모델이었습니다.
넥스는 "리오의 모든 가중치 텐서는 수천 개의 표준 편차 내에서 60개 레이어 전체와 네트워크의 모든 구성 요소에 걸쳐 넥스와 큐웬의 0.6/0.4 혼합 비율로 동일합니다."라고 썼습니다. "이것에 대한 단순한 설명은 없습니다."
수치는 또한 좀 더 조용한 이야기를 들려줍니다. 리오 3.5 출시 며칠 전에 나온 넥스 N2 프로는 터미널 벤치마크 2.1에서 75.3%를 기록했는데, 이는 리오의 70.8%보다 높은 점수입니다. 엘로(Elo) 등급과 유사한 경제 예측 벤치마크인 GDPval에서는 넥스가 1,585점을 기록한 반면 리오는 1,533점을 기록했습니다. 만약 리오가 넥스의 60% 수준이라면, 넥스 자체 벤치마크에서 리오보다 낮은 점수를 받는 것이 당연할 것입니다. 실제로 그렇습니다.
iplanRIO가 Hugging Face 모델 카드를 업데이트했습니다. 벤치마크 표가 내려갔고 기여도 분석 방식이 변경되었습니다.
업데이트된 README 파일에는 "이 모델은 nex-agi/Nex-N2-Pro와 Qwen/Qwen3.5-397B-A17B를 병합하여 구축되었으며, 그 전에 더 강력한 모델로부터 온-폴리션 증류(On-Policy Distillation)를 거쳤습니다."라고 명시되어 있습니다. "이전 버전에서 잘못된 업로드가 발생하여 최종 증류 모델 대신 기본 병합 버전이 업로드되었습니다. 혼란을 드려 죄송하며 진심으로 사과드립니다."
IplanRIO 측에서는 추가적인 공식 입장을 발표하지 않았습니다. Nex가 그 공로를 인정받았습니다.
"잘못된 업로드"라는 설명이 핵심 주장입니다. IplanRIO는 의도했던 릴리스가 병합된 기본 모델의 정제된 버전이지, 병합된 원본 자체가 아니라고 말합니다. 온폴리시 정제(On-policy distillation)는 더 강력한 교사 모델이 출력을 생성하고, 학생 모델은 이를 기반으로 학습하면서 자체 출력도 생성하는 방식입니다. 이는 원본 병합보다 비용이 많이 들지만, 처음부터 학습하는 것보다는 저렴합니다. 만약 해당 단계가 실제로 존재했다면, 병합 작업 외에 최소한 어느 정도의 독창적인 작업이 추가된 것이라고 볼 수 있습니다.
IplanRIO에 따르면 실제로 배송된 것은 아무것도 추가되지 않은 통합된 기본 모델이었습니다.
커뮤니티 관찰자들은 이것이 무엇을 의미하는지에 대해 의견이 분분합니다. 기술 평론가 라파엘 퀸타닐랴는 관대한 해석을 내놓았습니다. 넥스 N2 프로 자체가 Qwen을 기반으로 제작되었기 때문에, 개발팀은 기본 아키텍처에 대한 크레딧을 표시하고 그대로 두었을 가능성이 있다는 것입니다. 그는 또한 해당 모델이 월드컵 경기 중에 입소문을 탔다는 점을 지적하며, "반드시 '대중이 사용할 준비가 된' 상태는 아니었다"고 덧붙였습니다.
개발자이자 AI 유튜버인 루카스 몬타노는 "약 4천억 달러 규모의 모델 두 개를 병합한 다음 정책 증류를 적용하는 것은 간단한 작업이 아니다"라고 지적하며 기술적 오류와 소통 부족을 모두 인정했습니다.
AI 연구원인 디에고 암브로시오는 그다지 호의적이지 않았습니다. 초기 출시 당시 리오 3.5는 "자율적인 사후 학습 및 독자적인 미세 조정"의 결과물이라고 설명되었는데, 이는 단순한 합병이 아닌 독창적인 연구를 암시하는 표현이었습니다.
모델 병합은 완전히 합법적입니다. Nex N2 Pro는 Apache 2.0 라이선스이므로 출처만 명시하면 사용, 수정, 재배포할 수 있습니다. Qwen 3.5 또한 오픈 소스 라이선스입니다. 따라서 소송은 발생하지 않습니다.
문제는 모든 소스 모델의 이름을 밝히지 않고 결과물을 독립적으로 개발한 것처럼 제시한 것이었습니다. 오픈 소스 커뮤니티는 이와 같은 사례를 이미 경험했습니다. 올해 초, Cursor의 Composer 2가 Moonshot의 Kimi K2.5를 기반으로 제작되었음에도 불구하고 이를 공개하지 않은 사실이 드러났습니다. 그 여파는 즉각적이었고, 평판에 큰 타격을 입혔습니다. 소송까지는 가지 않았지만, 스크린샷만으로도 충분했습니다.
기존의 오픈소스 모델을 기반으로 구축하는 것은 일반적인 일입니다. 디크립트(Decrypt) 다룬 것처럼, 오픈소스 가중치를 쌓고 병합하는 것은 사실상 하나의 하위 문화입니다. "다른 사람의 작업을 기반으로 구축하지 마세요"가 일반적인 것이 아니라, "어떤 것을 사용했는지 밝히세요"가 일반적인 것입니다.
이번 사건이 단순한 출처 누락보다 더 큰 파장을 일으킨 이유는 바로 기관이 개입했기 때문이다. 익명성 개발자가 자신의 이름으로 여러 소프트웨어를 짜깁기한 결과물을 배포하는 것과, 월드컵 기간 중에 지방 정부가 이를 이용해 공공 부문 AI 주권을 주장하는 것은 완전히 다른 문제다. 한 브라질 평론가는 "자원 낭비였다" 고 비판했다 .
넥스는 이를 전쟁으로 몰고 가지 않았습니다. "리우데자네이루 시가 당사의 기술을 활용하여 최첨단 성능을 달성했다는 사실에 영광스럽게 생각합니다."라고 넥스는 X 매거진에 글을 올렸습니다 . "하지만 오픈 소스 세계에서는 출처 표기가 중요합니다."
IplanRIO는 수정된, 정제된 모델을 전체 어트리뷰션과 함께 업로드하는 작업을 진행 중입니다. 해당 모델이 업로드되면 동일한 검증 작업이 다시 실행될 것이며, 커뮤니티는 정제 과정이 실제로 어떤 변화를 가져왔는지, 아니면 여전히 Nex 기반에 시스템 프롬프트만 바뀐 것인지 확인할 수 있을 것입니다.



