Nostr Archives

@yeshuaformosa 『關於 DeepSeek 的敘事一直是這樣的：「2,000 顆 H800 晶片、560 萬美元，就靠中國的創新擊敗了美國 1,000 億美元的投入。」但這個故事在 72 小時內徹底崩潰了。週日，《路透社》引述川普政府一名高階官員證實，DeepSeek 即將推出的 V4 模型，其實是在內蒙古一座資料中心裡，使用走私來的 Blackwell 晶片叢集進行訓練。週一，Anthropic 發布詳細證據，指出 DeepSeek 透過 24,000 個詐騙帳號進行超過 15 萬次互動，藉此蒸餾 Claude 的推理能力。同一天，Google 也公布資料，指出有超過 10 萬個提示語針對 Gemini 的推理軌跡進行提取。而到了今天，《路透社》又報導，DeepSeek 將 V4 完全對 Nvidia 與 AMD 保密，卻讓華為提前數週取得使用權，因為若向美國晶片商展示該模型，就會暴露實際用來訓練它的硬體來源。這一連串事件說明了一切。DeepSeek 計畫在推出 V4 時聲稱它是用華為晶片打造的；而美國政府已經正式表明，這是一個他們正看著 DeepSeek 準備說出口的謊言。看看這些依賴關係：走私來、依法無法持有的 Nvidia Blackwell 晶片；依法無法取得的 OpenAI、Anthropic、Google 以及 xAI 模型所蒸餾出的推理能力；以及如今把成果歸功於其實並未生產這些結果的華為硬體的掩護說法。所謂「560 萬美元的訓練成本」從頭到尾都是海市蜃樓。SemiAnalysis 估算，DeepSeek 的母公司在 Nvidia GPU 上投入超過 5 億美元。該公司創辦人 2023 年也曾坦承，在出口禁令生效前囤積了 1 萬顆 A100。真正的 V3 訓練成本為 587 萬美元，但那只是最後一次訓練，不包含此前所有研發、消融實驗與資料成本。而且這些數字還是假設硬體是合法取得的前提下。過去 72 小時揭露的是：一家公司同時需要被禁用的美國晶片來訓練、被禁用的美國模型來教學，還需要一個捏造的來源故事才能對外發布產品。 Anthropic 也明白指出：「若無法掌握這些攻擊行為，外界就會錯誤地把這些實驗室表面上迅速的進展，當作出口管制無效的證據。」所謂「晶片禁令無效」的證據，本身就是建立在違反晶片禁令之上的。 V4 的發布將會非常值得觀察。DeepSeek 會聲稱使用華為；而美國政府已經告訴你，那不是真的。接下來的每一項基準測試，都將帶著一個和內蒙古資料中心一樣巨大的註記。』

💬 0 replies

Replies (0)

No replies yet.