先聲明DeepSeek 不見得就是用了
只是可能
這需要調查

Distillation
首先有個Teacher 模型
比如説 OpenAI
需要用25萬個問題去訓練
然後產生Output
這個模型會根據這個過程產生中間的函數 節點
這個中間有各式各樣的知識

然後Student 模型去根據這個Teacher
的輸入跟輸出
去產生中間的函數 節點

那有人會問那Student 模型為何可以精簡和更有效率
因爲Teacher 模型會有很多無用或用不到的知識
有些產生方式Teacher會更多節點

Student 模型只需要捷徑

以上是我不專業的解說
請高手指教
文章關鍵字
感覺是濃縮再濃縮
從已經篩選的資料去找答案
效率加快
就像從相似論文裡找文獻
比從圖書館找有效率
On9ccc
閉門造車?
Open AI 和其他的大模型
其實以後也要把自己的模型縮小
比如說當算力不足的場景
當要把模型移到算力較小的機器
或是當客戶多過算力的時候
畢竟大部分的客人都是在問些“比較蠢”的問題
那Student 需要拿到原始Teacher模型模型嗎?
其實不用
只要不斷問Teacher模型得到答案
去“喂”Student模型就可以了

優點是資源可以大幅減少
缺點是可能如果遇到冷門的問題
就答不出來了
因為Teacher模型很多你
認為不需要的節點
說不定其實是有用的
只是還沒用到而已
所以現在微軟也在蒸留了嗎





蒸留到處都是,ai底層邏輯都類似。重點在算法

連大神都說讚了↓


那對整體硬體的需求會減少嗎?
這個要看整個宏觀的產業走向

首先訓練模型這邊還是需要龐大的算力
除非全宇宙的知識包過人類知道和不知道的都產生了
那很可怕(全知全能了)

可是應對客戶這邊確實可以用這個方式精簡
和分流

畢竟大部分的客戶都是問些雞毛蒜皮
而且重複又重複的“蠢問題”

悲觀的會認為的確不需要那麼多的算力

樂觀的說法反而會帶動需求
就是客戶會變多
比如如說蘋果就可以提供更多不一樣的服務給更多全世界的客戶
整體的需求只會更多

再次聲明
我只是小白
僅供各位摻考
爬山的阿光 wrote:
所以現在微軟也在蒸留...(恕刪)


是的微軟也在蒸留
大家都在蒸餾
這是在客戶端節省成本的方法

可是另一邊大模型也不會停下來
畢竟沒有Teacher
Student 要向誰學

要先有瓶酒
才能進一步蒸它

還有微軟蒸自己的酒沒問題吧

等哪天有證據別人在蒸它的酒才會翻臉吧
爬山的阿光
先確定一下openAI是如何未經他人同意,在網路上收割所有人的資訊吧;再說人家也只是做了他們曾經所做過的事情,重點是完全的開源免費呀
VincentLu1021
網路上的不是公開資料嗎?這叫收割?openAI有公開他的資料? 不過某種程度上一直去問openAI取回的資料也是公開的。
你去看看目前在ai業界yt上面的大v們


根本不是在往這個方向在談,而是如何面對接下來的挑戰。


再看看美國股市的走向就知,聰明的錢已經在移動了。

不需要懂專業用語,看圖最直接,目前解讀如圖
smallbeetw
這個圖根本避重就輕,所謂的real data OpenAI自己從網路獲取的資料,也有版權問題拍。紐約時報就提告了,OpenAI自己辯解說是創新的必要
truthmanman
照你這個邏輯,以後大家碩士論文就拿同學的來改就好了,不用去找資料了對吧?
爬山的阿光 wrote:
你去看看目前在ai業...(恕刪)


不少所謂的大V同一時間講同樣的話
這場景很熟
以前發生過好幾次
結果勒

至於這兩天才有些不一樣的聲音出現

陰謀論點
微軟一方面打壓輝達的氣焰
試圖從賣方市場轉過來

又可以用劣幣去打擊真正投入資源的
比如説阿里百度一眾中國本身的AI

就像當年對盜版視而不見一樣的手法

這只是我天馬行空的想法
當我是小白好了
文章分享
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 10)

今日熱門文章 網友點擊推薦!