最近Deepseek 把這世界的AI科技界,搗成天翻地覆,大家有的信,有的半信半疑。下文很中肯,值得推薦。
From Dropbox的副總裁 Morgan Brown的短評:
終於有機會深入研究DeepSeek的r1了…
讓我用簡單的術語來解釋為什麼 DeepSeek 的人工智慧創新讓人們大吃一驚(並可能威脅到 Nvidia 2T 美元的市值)…
0/ 首先,英偉達將很難滿足目前市場的崇高期望。
1/ 首先,一些背景資訊:目前,訓練頂級人工智慧模型的成本極為昂貴。 OpenAI、Anthropic 等僅在計算方面就花了 1 億多美元。他們需要配備數千個價值 4 萬美元的 GPU 的大型資料中心。這就像需要一個完整的發電廠來運作一家工廠。
2/ DeepSeek 剛剛出現並說“哈哈,如果我們花 500 萬美元來做這個會怎麼樣?”他們不只是說說而已——他們實際上做到了。他們的模型在許多任務上都匹配或擊敗了 GPT-4 和 Claude。人工智慧世界(正如我十幾歲的孩子所說)震動了。
3/如何?他們從頭開始重新思考一切。傳統人工智慧就像把每個數字寫成小數點後 32 位元。 DeepSeek 的反應是:“如果我們只用 8 個呢?它仍然足夠準確!” Boom - 所需記憶體減少 75%。
4/ 然後是他們的“多代幣”系統。普通 AI 的讀法就像一年級學生一樣:「The...cat...sat...」DeepSeek 會立即讀出整個短語。速度提高 2 倍,準確率提高 90%。當您處理數十億個單字時,這一點很重要。
5/ 但真正聰明的一點是:他們建立了一個「專家系統」。他們沒有一個龐大的人工智慧試圖了解一切(例如讓一個人成為醫生、律師和工程師),而是擁有專門的專家,只在需要時醒來。
6/ 傳統模式?所有 1.8 兆個參數始終處於活動狀態。深尋?總共 671B,但同時只有 37B 處於活動狀態。這就像擁有一個龐大的團隊,但只召集每項任務實際需要的專家。
7/ 結果令人震驚:
* 培訓成本:1 億美元 → 500 萬美元
* 所需 GPU:100,000 → 2,000
* API 成本:便宜 95%
* 可以在遊戲 GPU 而不是資料中心硬體上運行
8/“但是等等,”你可能會說,“一定有一個陷阱!”這就是最瘋狂的部分——它都是開源的。任何人都可以檢查他們的工作。該代碼是公開的。技術論文解釋了一切。這不是魔法,只是非常聰明的工程。
9/ 為什麼這很重要?因為它打破了「只有大型科技公司才能涉足人工智慧」的模式。您不再需要價值十億美元的資料中心。一些好的 GPU 就可以做到這一點。
10/ 對 Nvidia 來說,這很可怕。他們的整個商業模式建立在以 90% 的利潤銷售超昂貴的 GPU 之上。如果每個人都可以突然使用常規遊戲 GPU 進行人工智慧…那麼,你就會看到問題所在了。
11/ 關鍵在於:DeepSeek 的團隊人數不到 200 人。與此同時,Meta 的一些團隊的薪酬就超過了 DeepSeek 的整個培訓預算……而且他們的模型也沒有那麼好。
12/ 這是一個經典的顛覆故事:現有企業優化現有流程,而顛覆者則重新思考基本方法。 DeepSeek 問道:“如果我們做得更聰明,而不是投入更多硬件,會怎麼樣?”
13/ 影響是巨大的:
* 人工智慧開發變得更容易
* 競爭急劇加劇
* 大型科技公司的「護城河」看起來更像水坑
* 硬體需求(和成本)直線下降
14/ 當然,像 OpenAI 和 Anthropic 這樣的巨人不會停滯不前。他們可能已經在實施這些創新。但效率精靈已經從瓶子裡出來了 - 無法再回到「只需投入更多 GPU」的方法。
15/ 最後的想法:這感覺就像是我們回顧時的轉捩點之一。就像個人電腦讓大型主機不再那麼重要,或是雲端運算改變了一切。
人工智慧將變得更加容易取得,而且成本也會大大降低。問題不在於這是否會擾亂現有的玩家,而在於擾亂的速度有多快。