I'm on my fourth iteration of training the 3B model.
I'm learning a lot, the first model is clearly garbage compared to what I have now, although I doubt it's better than a even a previous generation SOTA model for the same domain.
But I'm now curious about the ceiling.

Just trained a small LLM on the entire IRS tax code using reinforcement learning — fully local on my MacBook.
Base model: Qwen 2.5 3B Instruct
Training data: 2,113 IRC sections + 6,149 Treasury Regulations
Pipeline: SFT → DPO → GRPO
Hardware: Apple M4 Max, 128GB RAM

Dennison

Twitter

3B 모델 학습을 네 번째로 진행하고 있습니다.
많은 것을 배우고 있는데, 첫 번째 모델은 지금 모델에 비하면 형편없지만, 같은 도메인에서 이전 세대의 최첨단 모델보다도 못할 것 같다는 생각이 듭니다.

이제 이 모델의 최대 성능이 어느 정도인지 궁금해졌습니다.

ME 뉴스에 따르면, 4월 5일(UTC+8) 경제학자들은 미국 소비자들이 체감한 갑작스러운 휘발유 가격 급등이 이번 주 발표될 주요 물가 지표에 고스란히 반영될 것이라고 밝혔습니다. 미국의 3월 소비자물가지수(CPI)는 전월 대비 1% 상승할 것으로 예상되며, 이는 2022년 이후 최대 월간 상승폭이 될 것입니다. 근원 CPI는 전월 대비 0.3% 상승할 것으로 전망됩니다. 앞서 이란-이라크 전쟁으로 인해 미국 주유소의 휘발유 가격이 갤런당 약 1달러 정도 인상된 바 있습니다. CPI 발표 하루 전에는 연준이 선호하는 물가 지표가 전쟁 이전의 물가 상승 압력을 보여줄 것으로 예상됩니다. 경제학자들은 근원 CPI가...

경제학자들은 미국의 3월 소비자물가지수(CPI)가 1% 급등할 수 있으며, 연준이 올해 금리를 인하하기 어려울 수 있다고 예측합니다.

지난 한 주 동안 암호화폐 시장의 온체인 데이터를 분석한 결과, 투자 자본 특정 생태계에 집중된 반면 일부 주요 네트워크에서는 상당한 자금 유출이 발생한 것으로 나타났습니다.
힘든 동안...

지난 한 주 동안 자금 유입과 유출이 가장 많았던 알트코인 목록이 공개되었습니다.

주간 활성 사용자 수를 기준으로 가장 많이 사용되는 암호화폐 네트워크가 발표되었습니다. 데이터에 따르면 레이어 1 및 레이어 2 블록체인이 사용자 활동 측면에서 두드러지며, 그 외의 네트워크는...