四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

<label id="jc24u"></label>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

清華團(tuán)隊突破算力難題：4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1！有用戶稱整套方案成本不到7萬元，直降95%以上

每日經(jīng)濟(jì)新聞 2025-02-15 20:33:44

2月10日，清華KVCache.AI團(tuán)隊聯(lián)合趨境科技發(fā)布KTransformers開源項目更新，支持24G顯存在本地運行DeepSeek-R1、V3的671B“滿血版”。更新發(fā)布后，不少開發(fā)者測試發(fā)現(xiàn)，顯存消耗比技術(shù)文檔中提到的還要少，實際內(nèi)存占用約380G，顯存占用約14G。有用戶對方案成本進(jìn)行分項分析后稱，只要不到7萬元就能實現(xiàn)R1模型的本地運行，與A100/H100服務(wù)器動輒200萬元的價格相比，便宜了95%以上。不過，該方案也有諸多限制，如推理速度和適用模型等。

每經(jīng)記者岳楚鵬每經(jīng)編輯蘭素英

隨著大規(guī)模語言模型（LLMs）的不斷發(fā)展，模型規(guī)模和復(fù)雜性急劇提升，其部署和推理常常需要巨大的計算資源，這對個人研究者和小型團(tuán)隊帶來了挑戰(zhàn)。

2月10日，清華大學(xué)KVCache.AI團(tuán)隊聯(lián)合趨境科技發(fā)布的KTransformers開源項目公布更新：一塊24G顯存的4090D就可以在本地運行DeepSeek-R1、V3的671B“滿血版”。預(yù)處理速度最高達(dá)到286 tokens/s，推理生成速度最高能達(dá)到14 tokens/s。

KTransformers通過優(yōu)化本地機(jī)器上的LLM部署，幫助解決資源限制問題。該框架采用了異構(gòu)計算、先進(jìn)量化技術(shù)、稀疏注意力機(jī)制等多種創(chuàng)新手段，提升了模型的計算效率，并具備處理長上下文序列的能力。

KTransformers的更新發(fā)布后，不少開發(fā)者也紛紛用自己的設(shè)備進(jìn)行測試。他們驚喜地發(fā)現(xiàn)，本地運行完全沒有問題，甚至顯存消耗比github里的技術(shù)文檔中提到的顯存消耗還要少，實際內(nèi)存占用約380G，顯存占用約14G。

另外，有用戶對方案成本進(jìn)行分項分析后稱，只要不到7萬元就能實現(xiàn)R1模型的本地運行，與A100/H100服務(wù)器動輒200萬元的價格相比，便宜了95%以上。

清華團(tuán)隊突破算力難題：24G顯存即可運行R1和V3的671B“滿血版”

之前，671B參數(shù)的MoE架構(gòu)大模型DeepSeek-R1經(jīng)常出現(xiàn)推理服務(wù)器高負(fù)荷宕機(jī)的現(xiàn)象，而如果選擇其他云服務(wù)商提供的專屬版云服務(wù)器則需按GPU小時計費。這一高昂成本讓中小團(tuán)隊無力承擔(dān)，而市面上的“本地部署”方案多為參數(shù)量大幅縮水的蒸餾版。

但KTransformers開源項目近期的更新，成功打破了大模型推理算力門檻：支持24G顯存在本地運行DeepSeek-R1、V3的671B“滿血版”。

早在DeepSeek-V2時代，這一項目就因“專家卸載”技術(shù)出名了，因為它支持236B參數(shù)的大模型在僅有24GB顯存的消費級顯卡上流暢運行，把顯存需求砍到十分之一。

KTransformers開源項目重點關(guān)注的就是在資源有限的情況下進(jìn)行大模型的本地部署。一名Ktransformers開發(fā)團(tuán)隊成員表示：“項目在創(chuàng)始之初就已經(jīng)討論過項目的場景和目標(biāo)，我們所針對的是中小型用戶的場景，用領(lǐng)域的話講，就是低并發(fā)+超低顯存的場景。而顯存目前的成本已經(jīng)和CPU的內(nèi)存不是一個數(shù)量級了，對于中小用戶內(nèi)存可能完全不缺，但是找一個顯存很大的顯卡卻很難。”

圖片來源：知乎

KTransformers的原理大致為將參數(shù)較少、計算比較復(fù)雜的MLA注意力放在GPU上進(jìn)行計算，而參數(shù)大的、計算比較輕松的FNN（MOE）則放到CPU上去計算。

MoE結(jié)構(gòu)的模型具有很強(qiáng)的稀疏性，在執(zhí)行推理任務(wù)的時候，每次只會激活其中一部分的模型參數(shù)。因此，MoE架構(gòu)需要大量的存儲空間，但并不需要很多的計算資源。在這樣的情況下，同樣使用4bit量化，只需要一個4090 GPU就可以滿足這個參數(shù)需求。

此外，KTransformers團(tuán)隊還公布了v0.3預(yù)覽版的性能指標(biāo)，將通過整合英特爾的AMX指令集，CPU預(yù)填充速度最高至286 tokens/s，相比llama.cpp快了近28倍。對于需要處理上萬級Token上下文的長序列任務(wù)來說，相當(dāng)于能夠從“分鐘級等待”瞬間邁入“秒級響應(yīng)”，徹底釋放CPU的算力潛能。

用戶：成本相比A100/H100服務(wù)器可直降95%以上

KTransformers的更新發(fā)布后，不少開發(fā)者也紛紛在自己的設(shè)備上進(jìn)行測試。他們驚喜地發(fā)現(xiàn)，本地運行完全沒有問題，顯存消耗甚至比github里的技術(shù)文檔中提到的還要少，實際內(nèi)存占用約380G，顯存占用約14G。

圖片來源：嗶哩嗶哩

有B站up主實測發(fā)現(xiàn)，本地部署的速度可以達(dá)到約6-8 tokens/s，與硅基流動免費版速度差不多（但硅基流動有上下文關(guān)聯(lián)數(shù)、輸出數(shù)限制等因素）。

還有用戶規(guī)劃出了這套方案的成本：

CPU：Gold 6454S 兩顆價格1w4左右（QS版）

主板：技嘉ms73 價格6500元以內(nèi)（雙路主板一共16個DDR5 RDIMM接口）

內(nèi)存：單根64G的RDIMM DDR5服務(wù)器內(nèi)存要1800元總共1T 需要3w元左右

顯卡：低檔4060Ti 16G，大概3999元。更加建議4090 24G，因為可以增加上下文長度。

該用戶總結(jié)稱，整體成本7萬元不到，相比于A100/H100服務(wù)器動輒200萬元的價格，便宜了95%以上。就算是租用服務(wù)器每小時也得花費數(shù)千元。

當(dāng)然，這一本地方案還是有著諸多的限制，比如推理速度并不能和高價的服務(wù)器成本相提并論，并且只能給單人服務(wù)，而服務(wù)器可以同時滿足幾十個用戶的需求。目前整體方案也依賴于英特爾的AMX指令集，其他品牌的CPU暫時還無法進(jìn)行這些操作。并且這一方案主要是針對于DeepSeek的MOE模型，其他主流模型的運行可能并不理想。

有用戶認(rèn)為，短期來看，KTransformers可能刺激消費級顯卡（如4090）的需求，尤其是高顯存型號。但內(nèi)存漲價的可能性較低，因為其核心創(chuàng)新在于優(yōu)化顯存利用率，而非直接增加內(nèi)存消耗。但對于英偉達(dá)的影響并不會太大，因為這一技術(shù)歸根結(jié)底還是對于現(xiàn)有資源的優(yōu)化而非顛覆硬件需求。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請核實。據(jù)此操作，風(fēng)險自擔(dān)。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

趨境科技算力顯卡 DeepSeek 清華大學(xué)

上一篇文章

廣西大學(xué)附屬中學(xué)通報：教師鄭某某被開除

返回每經(jīng)網(wǎng)首頁

下一篇文章

光線傳媒下周還能漲停嗎？看看每經(jīng)版DeepSeek怎么說

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<noscript id="ld2jc"><progress id="ld2jc"><th id="ld2jc"></th></progress></noscript>

<label id="ld2jc"></label>

<td id="ld2jc"></td>