이 기사는 기계로 번역되었습니다
원문 표시
3B 모델 학습을 네 번째로 진행하고 있습니다.
많은 것을 배우고 있는데, 첫 번째 모델은 지금 모델에 비하면 형편없지만, 같은 도메인에서 이전 세대의 최첨단 모델보다도 못할 것 같다는 생각이 듭니다.
이제 이 모델의 최대 성능이 어느 정도인지 궁금해졌습니다.

Dennison
@DennisonBertram
03-26
Just trained a small LLM on the entire IRS tax code using reinforcement learning — fully local on my MacBook.
Base model: Qwen 2.5 3B Instruct
Training data: 2,113 IRC sections + 6,149 Treasury Regulations
Pipeline: SFT → DPO → GRPO
Hardware: Apple M4 Max, 128GB RAM

Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유




