我聽了這個節目,也看了 Gavin 關於人工智慧的思考貼文。他似乎對預訓練的擴展規律非常有信心,但我卻……不太確定?他的論點主要集中在運算能力的進步如何推動預訓練,但從定義上講,要實現擴展,資料量也需要相應增加,對吧? 我們都知道伊利亞關於預訓練資料的著名論斷,所以我的問題當然是:這些資料從何而來?似乎有人認為預訓練數據是合成數據,但我一直覺得這種說法不太對勁。 我一直憑直覺認為,模型自行產生資料進行預訓練會導致系統陷入混亂的惡性循環,無法進步。它是在孤立地學習,無法接觸到來自不同創建者的新資料。但是,我還沒有讀到任何關於使用自生成協同資料預訓練模型的益處或限制的論文。 有其他人有類似的想法或研究可以參考嗎?需要說明的是,我這裡指的是訓練前階段,而不是SFT訓練後階段等等。
本文為機器翻譯
展示原文

Patrick OShaughnessy
@patrick_oshag
12-09
This is my fifth conversation with @GavinSBaker.
Gavin understands semiconductors and AI as well as anyone I know and has a gift for making sense of the industry's complexity and nuance.
We discuss:
- Nvidia vs Google (GPUs + TPUs)
- Scaling laws and reasoning models
- The
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




