四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞

商訊推薦

每經(jīng)網(wǎng)首頁 > 商訊推薦 > 正文

昆侖萬維開源2000億稀疏大模型天工MoE，全球首創(chuàng)能用4090推理

2024-06-03 18:45:10

2024年6月3日，昆侖萬維宣布開源2000億稀疏大模型Skywork-MoE，性能強(qiáng)勁，同時(shí)推理成本更低。Skywork-MoE基于之前昆侖萬維開源的Skywork-13B模型中間checkpoint擴(kuò)展而來，是首個(gè)完整將MoE Upcycling技術(shù)應(yīng)用并落地的開源千億MoE大模型，也是首個(gè)支持用單臺(tái)4090服務(wù)器推理的開源千億MoE大模型。

開源地址：

Skywork-MoE的模型權(quán)重、技術(shù)報(bào)告完全開源，免費(fèi)商用，無需申請(qǐng)：

•模型權(quán)重下載：

https://huggingface.co/Skywork/Skywork-MoE-base

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

•模型開源倉庫：https://github.com/SkyworkAI/Skywork-MoE

•模型技術(shù)報(bào)告：https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

•模型推理代碼：（支持8x4090服務(wù)器上8 bit量化加載推理）https://github.com/SkyworkAI/vllm

模型架構(gòu)：

本次開源的Skywork-MoE模型隸屬于天工3.0的研發(fā)模型系列，是其中的中檔大小模型（Skywork-MoE-Medium），模型的總參數(shù)量為146B，激活參數(shù)量22B，共有16個(gè)Expert，每個(gè)Expert大小為13B，每次激活其中的2個(gè)Expert。

天工3.0還訓(xùn)練了75B（Skywork-MoE-Small）和400B（Skywork-MoE-Large）兩檔MoE模型，并不在此次開源之列。

模型能力：

基于目前各大主流模型評(píng)測(cè)榜單評(píng)測(cè)了Skywork-MoE，在相同的激活參數(shù)量20B（推理計(jì)算量）下，Skywork-MoE能力在行業(yè)前列，接近70B的Dense模型。使得模型的推理成本有近3倍的下降。同時(shí)Skywork-MoE的總參數(shù)大小比DeepSeekV2的總參數(shù)大小要小1/3，用更小的參數(shù)規(guī)模做到了相近的能力。

技術(shù)創(chuàng)新：

為了解決MoE模型訓(xùn)練困難，泛化性能差的問題，相較于Mixtral-MoE，Skywork-MoE設(shè)計(jì)了兩種訓(xùn)練優(yōu)化算法：

1.Gating Logits歸一化操作

昆侖萬維在Gating Layer的token分發(fā)邏輯處新增了一個(gè)normalization操作，使得Gating Layer的參數(shù)學(xué)習(xí)更加趨向于被選中的top-2 experts，增加MoE模型對(duì)于top-2的置信度：

2.自適應(yīng)的Aux Loss

有別于傳統(tǒng)的固定系數(shù)（固定超參）的aux loss，在MoE訓(xùn)練的不同階段讓模型自適應(yīng)地選擇合適的aux loss超參系數(shù)，從而讓Drop Token Rate保持在合適的區(qū)間內(nèi)，既能做到expert分發(fā)的平衡，又能讓expert學(xué)習(xí)具備差異化，從而提升模型整體的性能和泛化水平。在MoE訓(xùn)練的前期，由于參數(shù)學(xué)習(xí)不到位，導(dǎo)致Drop Token Rate太高（token分布差異太大），此時(shí)需要較大的aux loss幫助token load balance；在MoE訓(xùn)練的后期，昆侖萬維希望Expert之間仍保證一定的區(qū)分度，避免Gating傾向?yàn)殡S機(jī)分發(fā)Token，因此需要較低的aux loss降低糾偏。

訓(xùn)練Infra

如何對(duì)MoE模型高效地進(jìn)行大規(guī)模分布式訓(xùn)練是一個(gè)有難度的挑戰(zhàn)，目前社區(qū)還沒有一個(gè)最佳實(shí)踐。Skywork-MoE提出了兩個(gè)重要的并行優(yōu)化設(shè)計(jì)，從而在千卡集群上實(shí)現(xiàn)了MFU 38%的訓(xùn)練吞吐，其中MFU以22B的激活參數(shù)計(jì)算理論計(jì)算量。

1.Expert Data Parallel

區(qū)別于Megatron-LM社區(qū)已有的EP（Expert Parallel）和ETP（Expert Tensor Parallel）設(shè)計(jì)，昆侖萬維提出了一種稱之為Expert Data Parallel的并行設(shè)計(jì)方案，這種并行方案可以在Expert數(shù)量較小時(shí)仍能高效地切分模型，對(duì)Expert引入的all2all通信也可以最大程度地優(yōu)化和掩蓋。相較于EP對(duì)GPU數(shù)量的限制和ETP在千卡集群上的低效，EDP可以較好地解決大規(guī)模分布式訓(xùn)練MoE的并行痛點(diǎn)，同時(shí)EDP的設(shè)計(jì)簡(jiǎn)單、魯棒、易擴(kuò)展，可以較快地實(shí)現(xiàn)和驗(yàn)證。

一個(gè)最簡(jiǎn)單的EDP的例子，兩卡情況下TP=2，EP=2，其中Attention部分采用Tensor Parallel，Expert部分采用Expert Parallel

2.非均勻切分流水并行

由于first stage的Embedding計(jì)算和last stage的Loss計(jì)算，以及Pipeline Buffer的存在，流水并行下均勻切分Layer時(shí)的各stage計(jì)算負(fù)載和顯存負(fù)載均有較明顯的不均衡情況。昆侖萬維提出了非均勻的流水并行切分和重計(jì)算Layer分配方式，使得總體的計(jì)算/顯存負(fù)載更均衡，約有10%的端到端訓(xùn)練吞吐提升。

比較均勻切分和非均勻切分下的流水并行氣泡：對(duì)于一個(gè)24層Layer的LLM，(a)是均勻切分成4個(gè)stage，每個(gè)stage的layer數(shù)量是：[6,6,6,6].(b)是經(jīng)過優(yōu)化后的非均勻切分方式，切成5個(gè)stage，每個(gè)stage的layer數(shù)量是：[5,5,5,5,4]，在中間流水打滿的階段，非均勻切分的氣泡更低。

MoE Know-how

此外，Skywork-MoE還通過一系列基于Scaling Laws的實(shí)驗(yàn)，探究哪些約束會(huì)影響Upcycling和From Scratch訓(xùn)練MoE模型的好壞。

一個(gè)可以遵循的經(jīng)驗(yàn)規(guī)則是：如果訓(xùn)練MoE模型的FLOPs是訓(xùn)練Dense模型的2倍以上，那么選擇from Scratch訓(xùn)練MoE會(huì)更好，否則的話，選擇Upcycling訓(xùn)練MoE可以明顯減少訓(xùn)練成本。

4090推理

Skywork-MoE是目前能在8x4090服務(wù)器上推理的最大的開源MoE模型。8x4090服務(wù)器一共有192GB的GPU顯存，在FP8量化下（weight占用146GB），使用昆侖萬維首創(chuàng)的非均勻Tensor Parallel并行推理方式，Skywork-MoE可以在合適的batch size內(nèi)達(dá)到2200 tokens/s的吞吐。天工團(tuán)隊(duì)完整開源了相關(guān)的推理框架代碼和安裝環(huán)境，詳情參見：https://github.com/SkyworkAI/Skywork-MoE

結(jié)語

希望本次開源的Skywork-MoE模型、技術(shù)報(bào)告和相關(guān)的實(shí)驗(yàn)結(jié)果可以給開源社區(qū)貢獻(xiàn)更多的MoE訓(xùn)練經(jīng)驗(yàn)和Know-how，包括模型結(jié)構(gòu)、超參選擇、訓(xùn)練技巧、訓(xùn)練推理加速等各方面，探索用更低的訓(xùn)練推理成本訓(xùn)更大更強(qiáng)的模型，在通往AGI的道路上貢獻(xiàn)一點(diǎn)力量。

責(zé)編魏小靜

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

注意！冀中能源將于6月19日召開股東大會(huì)

返回每經(jīng)網(wǎng)首頁

下一篇文章

山石網(wǎng)科：累計(jì)回購約115萬股

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2024 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<th id="kewa0"><ul id="kewa0"></ul></th>

<dfn id="kewa0"><code id="kewa0"></code></dfn>

<blockquote id="kewa0"></blockquote>