• <tr id='PudVmU'><strong id='PudVmU'></strong><small id='PudVmU'></small><button id='PudVmU'></button><li id='PudVmU'><noscript id='PudVmU'><big id='PudVmU'></big><dt id='PudVmU'></dt></noscript></li></tr><ol id='PudVmU'><option id='PudVmU'><table id='PudVmU'><blockquote id='PudVmU'><tbody id='PudVmU'></tbody></blockquote></table></option></ol><u id='PudVmU'></u><kbd id='PudVmU'><kbd id='PudVmU'></kbd></kbd>

    <code id='PudVmU'><strong id='PudVmU'></strong></code>

    <fieldset id='PudVmU'></fieldset>
          <span id='PudVmU'></span>

              <ins id='PudVmU'></ins>
              <acronym id='PudVmU'><em id='PudVmU'></em><td id='PudVmU'><div id='PudVmU'></div></td></acronym><address id='PudVmU'><big id='PudVmU'><big id='PudVmU'></big><legend id='PudVmU'></legend></big></address>

              <i id='PudVmU'><div id='PudVmU'><ins id='PudVmU'></ins></div></i>
              <i id='PudVmU'></i>
            1. <dl id='PudVmU'></dl>
              1. <blockquote id='PudVmU'><q id='PudVmU'><noscript id='PudVmU'></noscript><dt id='PudVmU'></dt></q></blockquote><noframes id='PudVmU'><i id='PudVmU'></i>
                搜一下
                您現這點是毋庸置疑在的位置:首頁 > 熱門文章 > “哪咤”出世!華為開源中∏文版BERT模型-企一網

                “哪咤”出世!華為開源中文Ψ版BERT模型-企一網

                2019-12-13 06:51:21 標簽:“哪咤”出世!華⊙為開源中文版BERT模型

                 “哪咤”出世!華為∞開源中文版BERT模型

                  

                  “哪咤”來了!近日,華為諾亞實驗室開源中文預訓練語言模型“哪咤”,基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進∞水平。。現在戳右邊鏈接上 新智元小程序 了解更多!

                  自Google於2018年發布預訓練語言模型BERT ,並在11項自然〓語言處理(NLP)任務上取得最好成績,預訓練語言模型∩開始得到學術界和工業界的極大關註,已經成為自然語言處理的新範式。各個公司和高校的研究團隊對方沒有說話陸續推出了◣新的預訓練語言模型,並不斷刷新NLP任務上的記錄,如CMU和Google推出的XLnet ,Facebook AI推出的RoBERTa ,百度推事情出的ERNIE 等。

                  華為諾亞方舟實驗室語音語義團隊與海思、雲BU等團隊合作↑,共同研究大規√模預訓練模型的訓練技術,發布ζ了自己的中文預訓練語言模型NEZHA(NEural ContextualiZed Representation for CHinese LAnguage Understanding,中文:哪咤)。

                  當她就向著外面走去前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。

                  NEZHA的技術★報告發布在:https://arxiv.org/abs/1909.00204,

                  模型和代碼開源在:https://github.com/huawei-noah/Pretrained-Language-Model 。

                  NEZHA預訓練語言模型

                  NEZHA是基於預訓練卐語言模型BERT的改進模型,BERT通過使用大量無監督文※本進行預訓練,其包含兩個預訓嘴角哆嗦著練任務:Masked Language Modeling(MLM)和Next Sentence Prediction (NSP),分別預測句子裏被Mask的字(在構造訓練數據時,句子裏的部〗分字被Mask)和判斷訓練↙句對裏面是不是真實的上下句。

                  在具體的一個下遊自然語言理解任務上,BERT經過在該任務上的微調就能夠將預訓練學到的語義信息成功遷移到下遊任務上。諾亞方舟實驗室的中文預訓練語⌒言模型NEZHA(哪咤)基於BERT在模型,預訓練任務和訓練算△法三個維度進行了改進。

                 “哪咤”出世!華為開源中文『版BERT模型

                  模型改進:BERT的網絡架構是一個多層的Transformer網絡,由於Transformer並沒有直接考慮輸入的token的位置信息,原始的Transformer模型和BERT分別采用了函數式和參數式的絕㊣ 對位置編碼方式,即每一個⊙位置上的輸入的token會疊加一個向前緩慢與位置信息相關的一個embedding(這個embedding稱為絕對位置編碼:absolute position embedding,APE),前者的位置編碼是一↓個與位置相關的函數,後者則@是模型參數的一部分,在預訓練過程中學到△的。此後,又有工作提出了相對位置編碼方看著幾人還是人麽式,即在每一層計算隱狀態的相互依賴的時候考慮他們之間的相對位々置關系,這個相對位置信息①表示為一個相對位置編碼(relative position embedding,RPE),已有工作均在相對位置編碼中加@ 入了可學習的參數。本工作在BERT模型中使用了完全函數式的相對位置編碼(相對位☉置編碼沒有任何需要學習的參數),實驗結果表明該位置編碼方式使得模型在各◣個下遊任務上的效果均得到明顯眾人提升。

                  預訓練任務:本工作引入了全詞Mask技術,即不同於≡原始的BERT模型Mask單個∴中文字,該技術在MLM預訓練任↘務中Mask整個詞而不是單個字(如下圖全詞Mask方法Mask了一整個▓詞“華為”),進而提升了任務難度使得BERT學到更多語義信√息。

                 “哪咤”出世!華為你不想想啊開源中文版BERT模型

                  此外,借鑒SpanBERT ,NEZHA模型還引入了Span預測任務,該任務Mask一個連續的Span(例如下圖⌒ 中“機”,“很”,“不”三個字),利用Span前後的兩個字的最上層表示(下圖中的x3和x7)以及待預測字的位置信息來預測▼該字,如下圖中,待預測字為“不”,Span預測任☆務會使用x3,x7和“不“”這個字的位置信息(就是x3和x6還有x6和x7之間的相對位置╱編碼)來預測該字,“機”和“很”的預測也是同樣的方法。該方法使得Span前後的字的表示♀會包含Span中字〗的語義信息,由於在訓練過程中,一個句子會被隨機Mask很多次,所以句子中每個僅僅是九幻字都有機會成為Span的前後字,進ω 而使得各個字學到的表示都會包含周圍Span的信息,Span預測任務能夠有效提高模型在下遊的Span抽取任務(此任】務的目標是獲取一段文字中目標片要不然剛帝豪娛樂會所裏段的開始和結束位置)的效果。

                 “哪咤”出世!華為開源中文版BERT模型

                  訓練算法:在訓練過程中,我們采用混合精度◎訓練(Mixed Precision Training)方式,在傳統的深度學習訓練過程中,所有的變量包括weight,activation和gradient都是用FP32(單精度浮點數)來表示。而在混合精度訓練過程中,每一個step會為模型的】所有weight維護一個FP32的copy,稱為Master  Weights,在〓做前向和後向傳播過程中,Master Weights會轉換成FP16(半精度浮點數)格式,權重,激活函數和梯度都慢鏡頭一樣是用FP16進行表示,最後梯度會轉換成FP32格式去更新Master Weights。優化器方◤面我們使用了LAMB優化器,通常在深度神經網絡訓練的Batch Size很大的情況下(超過一定閾值)會給模型的泛化能力帶來負面影響█,而LAMB優化器通過一個自適應式的方式為每個參數調整learning rate,能夠在Batch Size很大的情況下不損失模型的效果,使得模型訓誇獎而有半點喜色練能夠采用很大的Batch Size,進而極大提高訓練速度。在訓練BERT的研究中,使用LAMB優化器在不〒損失模型效果的前提下,Batch Size達到了超過ㄨ30k,使得BERT的訓練時間從3天降到了76分鐘。

                  實驗結果

                  NEZHA模型的實驗中采用了5個中文自然語言理解任務,即CMRC(中文閱讀←理解),XNLI(自然卐語言推斷),LCQMC(句義匹配),PD-NER (命名實體識別任務),ChnSenti(情感分類)。我們在中文維基百科,中文新聞,百度百科數據上訓練NEZHA模型,並且和谷歌發布的中文BERT,以及哈工大和●科大訊飛(002230,股吧)聯合發布的BERT-WWM,還有百度發布的ERNIE-Baidu進行了比較向著沖了過去。從下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任務上¤達到了先進水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分別代表由原始⌒的BERT預訓練任務訓練得到的,加入全詞Mask訓練得到的以組合他及加入Span預測任務訓練得到的NEZHA模型(三者均使用了全函數∩式相對位置編碼)。

                 “哪咤”出世!華為開源中文版BERT模型

                  本工作還對NEZHA模型進行了剝離式研究(Ablation Study),著重研究了以下幾個訓練因素對模型效果的影◥響:

                  1.    位置編碼:我們比較了NEZHA模型中使用的函數式相對位置編碼相比於已事情有工作中使用的參數式絕對位置編碼和參數式相對位置編碼的效果

                  2.    Masking策略:我們研究了全詞Mask(WWM)的效果

                  3.    Span預測任務:我們研究了Span預測任務針對閱讀理解∮任務(CMRC)的效果

                  4.    訓練序列的長度:用更長的序列訓練是否能夠帶來效果提升

                  5.    訓練語料的大小:用更大的語料進㊣行訓練是否能夠帶來提升

                  下表展示了剝離式研究的☉結果,從下表可以看出以上四個技術(即函數式相對位置山門就是占山而駐編碼,全詞Mask,用更長的序列,更多語料進行訓練)均能夠№提升模型的整體效果。尤其是函數式相對位置編碼,相比於其他兩種位置編碼給模型效果帶來了顯著提升。Span預測任務顯著︽提升了模型在閱讀理解任務(CMRC)上的效果。

                 “哪咤”出世!華為開源中文版BERT模型

                結論與展望

                  本文介紹了華為諾亞方舟實驗室訓練的中文預訓練語言模型NEZHA,並闡述了其中預訓練所用〗到的技術,包括:函數式相對位置編碼,混合精度訓練』等,實驗結果表明NEZHA模型在一系列中文自然語言理解任務上兩把匕首有如離弦之箭達到了先進水平。在今後的研★究中,我們會探索NEZHA預訓練的改進方案,並且探索基神色於NEZHA的自然語言生成的任務以及多語言模型的◣研究與實踐。

                  關於模型名稱(哪咤)的寓意:預訓練語言模〓型歷來有使用卡通人物名稱命名的唐韋突然大叫了一聲傳統,如:Google發布的BERT模型,百度發布的ERNIE模型等,華為諾亞方舟實驗室采用“哪咤”,一≡個中國傳統神話人物,也是最近很熱門的一個動畫片主角,同時也表示我們的模型像哪咤那樣三頭六臂,威力無比,大力出奇跡,可以處理很多不同的自然語言任〇務。