先聲明DeepSeek 不見得就是用了
只是可能
這需要調查
Distillation
首先有個Teacher 模型
比如説 OpenAI
需要用25萬個問題去訓練
然後產生Output
這個模型會根據這個過程產生中間的函數 節點
這個中間有各式各樣的知識
然後Student 模型去根據這個Teacher
的輸入跟輸出
去產生中間的函數 節點
那有人會問那Student 模型為何可以精簡和更有效率
因爲Teacher 模型會有很多無用或用不到的知識
有些產生方式Teacher會更多節點
Student 模型只需要捷徑
以上是我不專業的解說
請高手指教
為提供您更優質的服務,本網站使用cookies。若您繼續瀏覽網頁,即表示您同意我們的cookies政策。 了解隱私權條款