日前,“PatrickStar”派大星開(kāi)源項(xiàng)目在GitHub上正式發(fā)布,這是騰訊AI團(tuán)隊(duì)與Tencent NLP Oteam聯(lián)合研發(fā)得成果。PatrickStar 為GPT、BERT等超大模型訓(xùn)練過(guò)程中經(jīng)常出現(xiàn)得“GPU內(nèi)存墻”問(wèn)題提供了更好得解決方案。
據(jù)項(xiàng)目團(tuán)隊(duì)介紹,在NLP訓(xùn)練過(guò)程中遇到“GPU內(nèi)存墻”問(wèn)題時(shí),傳統(tǒng)得方法需要增加更多得GPU來(lái)解決。采用創(chuàng)新系統(tǒng)設(shè)計(jì)得PatrickStar,使用了異構(gòu)訓(xùn)練模式,通過(guò)細(xì)粒度得方式管理模型數(shù)據(jù),進(jìn)一步突破PTM模型規(guī)模得極限。PatrickStar可以充分利用CPU和GPU內(nèi)存,這樣就可以使用更少得GPU來(lái)訓(xùn)練更大得模型。減少了對(duì)GPU得依賴后,可以用更節(jié)能環(huán)保得方式讓PTM預(yù)訓(xùn)練模型惠及到每一位NLP自然語(yǔ)言處理用戶。
從目前測(cè)試得情況來(lái)看,Patrickstar可以使用8個(gè)Tesla V100 GPU和240GB GPU內(nèi)存來(lái)訓(xùn)練一個(gè)120億參數(shù)得模型,模型規(guī)模達(dá)到現(xiàn)有微軟DeepSpeed Zero-Offload技術(shù)得兩倍。對(duì)于相同尺寸得模型,PatrickStar得性能也更好。經(jīng)過(guò)實(shí)測(cè),在不到5000元價(jià)位得個(gè)人電腦上,可以訓(xùn)練一個(gè)7億參數(shù)得GPT模型。Patrickstar得這個(gè)表現(xiàn),意味著即使是NLP個(gè)人愛(ài)好者,也有了可以自己做NLP訓(xùn)練得可能。
此前得數(shù)據(jù)表明,使用原有方法做PTM預(yù)訓(xùn)練時(shí),由于對(duì)機(jī)器配置要求高,訓(xùn)練過(guò)程中持續(xù)高能耗,訓(xùn)練一次萬(wàn)億級(jí)別得PTM往往要耗費(fèi)154萬(wàn)元人民幣。消耗得電能折合碳排放,相當(dāng)于幾十國(guó)內(nèi)小汽車(chē)整個(gè)壽命周期得碳排放總和。
據(jù)PCEVA了解,騰訊團(tuán)隊(duì)不僅將PatrickStar派大星項(xiàng)目進(jìn)行了開(kāi)源,這個(gè)技術(shù)也已經(jīng)參與到了搜一搜、對(duì)話開(kāi)放平臺(tái)、小微智能音響等產(chǎn)品研發(fā)工作中。騰訊AI團(tuán)隊(duì)與Tencent NLP Oteam以技術(shù)做支撐,助力在產(chǎn)品研發(fā)過(guò)程中降低對(duì)GPU卡硬件得使用數(shù)量,提升機(jī)器得利用率,減少數(shù)據(jù)中心得碳排放規(guī)模。接下來(lái),AI團(tuán)隊(duì)也將持續(xù)深化開(kāi)源技術(shù)得研發(fā)及應(yīng)用,以創(chuàng)新促進(jìn)行業(yè)發(fā)展及生態(tài)建設(shè)。