Research Paper Replica

Attention Is All You Need (Transformer)

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Attention-only sequence transduction architecture that replaces recurrence and convolution while improving translation quality and training efficiency.

Jun 201714 pages16 min read
Page 1Attention Is All You Need (Transformer)
AttentionIsAllYouNeed(Transformer)(https://arxiv.org/pdf/1706.03762)Abstract:Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattentionmechanism.Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolutionsentirely.Experimentsontwomachinetranslationtasksshowthesemodelstobesuperiorinqualitywhilebeingmoreparallelizableandrequiringsignificantlylesstimetotrain.Ourmodelachieves28.4BLEUontheWMT2014English-to-Germantranslationtask,improvingovertheexistingbestresults,includingensembles,byover2BLEU.OntheWMT2014English-to-Frenchtranslationtask,ourmodelestablishesanewsingle-modelstate-of-the-artBLEUscoreof41.8aftertrainingfor3.5daysoneightGPUs,asmallfractionofthetrainingcostsofthebestmodelsfromtheliterature.WeshowthattheTransformergeneralizeswelltoothertasksbyapplyingitsuccessfullytoEnglishconstituencyparsingbothwithlargeandlimitedtrainingdata.I.IntroductionA.Bốicảnhtrướcđó:TrướcTransformer,cácbàitoánxửchuỗinhưdịchmáyhayhìnhngônngữchủyếudựavàoRNN,đặcbiệtLSTMGRU.RNNtínhtoántheotừngvịtrícủachuỗi.mỗibướct,trạngtháiẩnphụthuộcvào𝑡đầuvàotạivịtrí.𝑡−1𝑡Dođó,việctínhtoánbịràngbuộctheothứtựthờigian.Khôngthểsongsonghóacácbướctrongcùngmộtchuỗi.Tácgiảnhấnmạnhrằngđãcáccảitiếnnhưfactorizationtrickshoặcconditionalcomputationgiúptănghiệuquả,nhưngràngbuộctuầntựvẫntồntạivềmặtbảnchất.Cáchxửtuầntựnàykhiếnviệctínhtoánkhósongsonghóa.Khichuỗidài,việchuấnluyệntrởnênchậmtốntàinguyên,đãnhiềucảitiếnđểtănghiệuquả.B.Vaitròcủaattention:Attentionđãtrởthànhthànhphầnquantrọngtrongcáchìnhsequencemodelingchophéphìnhhóaphụthuộcgiữacácvịtríkhôngquantâmđếnkhoảngcách.Tuynhiên,tronghầuhếtcáccôngtrình,attentionvẫnđượcsửdụngcùngvớiRNN.khôngthaythếphầntuầntự,chỉhỗtrợ.C.ĐềxuấtTransformer
Page 2Attention Is All You Need (Transformer)
Từcácquansáttrên,tácgiảđềxuấtTransformer:-Loạibỏhoàntoànrecurrence-Khôngsửdụngconvolution-DựahoàntoànvàoattentionđểhọcquanhệtoàncụcgiữainputoutputHệquảlà:-Tăngmứcđộsongsonghóađángkể-Huấnluyệnnhanhhơn-Vẫnđạthoặcvượtstate-of-the-arttrongdịchmáyD.Bằngchứngthựcnghiệmtổnghợp:Nhữngkếtquảthunghiệmđược:-28.4BLEUtrênWMT2014English–German,vượthơn2BLEUsovớikếtquảtốtnhấttrướcđó-41.8BLEUtrênEnglish–French,đạtstate-of-the-artchosinglemodel-Thờigianhuấnluyệnchỉ3.5ngàytrên8GPU-hìnhcòntổngquáttốtsangbàitoánparsingTómlại,vấnđềcốtlõicủaRNNtínhtuầntự,attentionđãchothấytiềmnăng,Transformerbướctiếnkhixâydựngtoànbộkiếntrúcchỉdựatrênattentionđểđạthiệuquảtínhtoánchấtlượngvượttrội.II.BackgroundA.HướngtiếpcậngiảmtínhtuầntựtrướcTransformerMộtsốhìnhnhưExtendedNeuralGPU,ByteNetConvS2SđãtìmcáchgiảmtínhtuầntựbằngcáchdùngCNNthaychoRNN.Nhờconvolution,cácvịtrítrongchuỗithểđượctínhtoánsongsong.Tuynhiên,đểliênhệhaivịtrícáchxanhau:-ConvS2Scầnsốbướctăngtuyếntínhtheokhoảngcách-ByteNetcầnsốbướctăngtheologkhoảngcáchĐiềunàykhiếnviệchọcphụthuộcxatrởnênkhóhơn.TransformergiảiquyếtvấnđềnàycủaCNNcảRNNbằngself-attention,nơimọicặpvịtríthểtươngtácchỉvớisốbướchằngsố.Đổilại,hiệntượnggiảmđộphângiảidochếtrungbìnhtheotrọngsốattention.TácgiảkhắcphụcbằngMulti-HeadAttention.B.Self-attentionđãđượcdùngđâuSelf-attention,còngọiintra-attention,chếchophépcácvịtrítrongcùngmộtchuỗitươngtácđểtạorabiểudiễncủachuỗiđó.
Page 3Attention Is All You Need (Transformer)
chếnàyđãđượcdùngthànhcôngtrongnhiềutácvụnhưđọchiểu,tómtắttrừutượng,textualentailmenthọcbiểudiễncâuđộclậpvớitácvụ.C.Memorynetworkattentionlặp:End-to-endmemorynetworkssửdụngchếattentionlặpthayrecurrencetheovịtríchuỗi.Chúngđạtkếtquảtốttrêncácbàitoánhỏiđápđơngiảnlanguagemodeling.D.ĐiểmmớicủaTransformer:Transformerhìnhtransductionđầutiênhoàntoàndựavàoself-attentionđểtínhbiểudiễnchocảinputoutput,khôngdùngRNNtheochuỗicũngkhôngdùngconvolution.III.ModelArchitectureEncoder–DecoderStructureCáchìnhsequencetransductioncạnhtranhnhấtsửdụngcấutrúcencoder–decoder.Encoderánhxạchuỗiđầuvàodạnghiệu(𝑥1,...,𝑥𝑛)thànhchuỗibiểudiễnliêntụcTừ,decodersinhchuỗiđầura(𝑧1,...,𝑧𝑛)𝑧(𝑦1,...,𝑦𝑛)từngphầntửmột.Tạimỗibước,hìnhauto-regressive,tứcsửdụngcáchiệuđãsinhtrướcđólàminputbổsungkhidựđoánhiệutiếptheo.Transformergiữnguyênkhungnàynhưngthaythếtoànbộthànhphầnbêntrongbằngself-attentioncáclớpfullyconnectedtheovịtrí.A.EncoderandDecoderStacks
Page 4Attention Is All You Need (Transformer)
EncoderEncodergồmmộtstackgồmN=6lớpgiốnghệtnhau.Mỗilớpgồmhaisub-layer:1.Multi-headself-attention2.Position-wisefullyconnectedfeed-forwardnetworkMỗisub-layerđượcbaoquanhbởiresidualconnection,sauđólayernormalization.Côngthức:𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥+𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥))Đểresidualconnectionhoạtđộngthuậnlợi,tấtcảsub-layerembeddinglayerđềuchooutputcùngkíchthước:𝑑𝑚𝑜𝑑𝑒𝑙=512DecoderDecodercũnggồmmộtstackN=6lớpgiốnghệtnhau.Ngoàihaisub-layergiốngencoder,decoderthêmmộtsub-layerthứba:Multi-headattentiontrênoutputcủaencoderstackTươngtựencoder,mỗisub-layerđềuresidualconnectionlayernormalization.Self-attentiontrongdecoderđượcđiềuchỉnhđểngănmỗivịtríattendtớicácvịtríphíasau.Việcmaskingnày,kếthợpvớiviệcdịchoutputembeddingslệchmộtvịtrí,đảmbảorằngdựđoántạivịtríiiichỉphụthuộcvàocácoutputđãbiếttạicácvịtrínhỏhơni.B.Attention:Mộtattentionfunctionánhxạmộtquerymộttậpcáccặpkey–valuesangmộtoutput.Query,keys,valuesoutputđềuvector.Outputđượctínhnhưweightedsumcủavalues,trongđótrọngsốđượctínhbởicompatibilityfunctiongiữaquerykeytươngứng.
Page 5Attention Is All You Need (Transformer)
ScaledDot-ProductAttentionInputgồm:QueriesKeyskíchthước𝑑𝑘Valueskíchthước𝑑𝑣Dotproductgiữaquerytoànbộkeysđượctính,sauđóchiacho,rồiáp𝑑𝑘dụngsoftmaxđểlấytrọngsốtrênvalues.Khitínhđồngthờinhiềuquery,gomthànhmatrận,keysvaluesthành𝑄𝐾.Khiđó:𝑉𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄,𝐾,𝑉)=𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑄𝐾𝑇𝑑𝑘)𝑉Sovớiadditiveattentiondot-productattentionthôngthường,phiênbảnnàythêmhệsốscale1𝑑𝑘Giảsửcácthànhphầncủađộclập,trungbình0phươngsai1.Khi𝑞𝑘đó:𝑞⋅𝑘=𝑖=1𝑑𝑘𝑞𝑖𝑘𝑖trungbình0phươngsai.Khilớn,dotproductđộlớnlớn,đẩy𝑑𝑘𝑑𝑘softmaxvàovùnggradientnhỏ.Dođócầnscalebởi1𝑑𝑘Multi-HeadAttentionThaythựchiệnmộtattentionduynhấtvớikeys,valuesquerieskíchthước,hìnhchiếutuyếntínhchúnglầnvớicácmatrậnkhácnhau,sang𝑑𝑚𝑜𝑑𝑒𝑙cáckhônggianconkíchthước,,.𝑑𝑘𝑑𝑘𝑑𝑣Trênmỗiphiênbảnchiếunày,attentionđượcthựchiệnsongsong,chooutputkíchthước.Cácoutputnàyđượcnốilạichiếutuyếntínhlầnnữa.𝑑𝑣Côngthức:𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑(𝑄,𝐾,𝑉)=𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1,...,ℎ𝑒𝑎𝑑)𝑊𝑂Với:ℎ𝑒𝑎𝑑𝑖=𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑊𝑖𝑄,𝐾𝑊𝑖𝐾,𝑉𝑊𝑖𝑉)
Page 6Attention Is All You Need (Transformer)
Trongđó:𝑊𝑖𝑄𝑅𝑑𝑚𝑜𝑑𝑒𝑙𝑥𝑑𝑘𝑊𝑖𝐾𝑅𝑑𝑚𝑜𝑑𝑒𝑙𝑥𝑑𝑘𝑊𝑖𝑉𝑅𝑑𝑚𝑜𝑑𝑒𝑙𝑥𝑑𝑣𝑊𝑂𝑅ℎ𝑑𝑣𝑥𝑑𝑚𝑜𝑑𝑒𝑙Trongpaper:=8𝑑𝑘=𝑑𝑣=𝑑𝑚𝑜𝑑𝑒𝑙=64Multi-headattentionchophéphìnhattendđồngthờitớithôngtintừcácrepresentationsubspaceskhácnhautạicácvịtríkhácnhau.Vớimộtheadduynhất,việcaveragingsẽhạnchếđiềunày.ApplicationsofAttentioninourModelTransformerdùngmulti-headattentiontheobacách:1.Encoder–DecoderAttentionQuerytừdecoderlayertrướcđó.Keysvaluestừoutputcủaencoder.Mỗivịtrídecoderattendtớitoànbộinputsequence.2.EncoderSelf-AttentionKeys,valuesqueriesđềutừoutputcủalayerencodertrướcđó.Mỗivịtríencoderattendtớimọivịtríkháctronglayertrước.3.DecoderSelf-AttentionMaskMỗivịtrídecoderattendtớicácvịtrítrongdecodertớibaogồmchínhnó.Đểgiữtínhauto-regressive,cáckếtnốikhônghợplệđượcmaskbằngcáchđặtgiátrịtươngứngthành−∞trướckhisoftmax.C.Position-wiseFeed-ForwardNetworksNgoàiattention,mỗilayermộtfullyconnectedfeed-forwardnetworkápdụngđộclậpgiốngnhauchotừngvịtrí:𝐹𝐹𝑁(𝑥)=𝑚𝑎𝑥(0,𝑥𝑊1+𝑏1)𝑊2+𝑏2Cáclineartransformationgiốngnhaugiữacácvịtrítrongcùngmộtlayer,nhưngkhácnhaugiữacáclayer.Kíchthước:
Page 7Attention Is All You Need (Transformer)
𝑑𝑚𝑜𝑑𝑒𝑙=512𝑑𝑓𝑓=2048thểxemnhưhaiconvolutionvớikernelsize1.D.EmbeddingsandSoftmaxInputoutputtokensđượcchuyểnthànhvectorkíchthướcbằnglearned𝑑𝑚𝑜𝑑𝑒𝑙embeddings.Decoderoutputđượcđưaqualearnedlineartransformationsoftmaxđểdựđoánxácsuấtnexttoken.Transformerchiasẻcùngmộtmatrậntrọngsốgiữa:HaiembeddinglayersLớplineartrướcsoftmaxTrongembeddinglayers,cáctrọngsốđượcnhânvới𝑑𝑚𝑜𝑑𝑒𝑙E.PositionalEncodingDokhôngrecurrenceconvolution,hìnhcầnthôngtinthứtự.Positionalencodingsđượccộngvàoinputembeddingstạiđáyencoderdecoderstacks.Positionalencodingcùngkíchthước.𝑑𝑚𝑜𝑑𝑒𝑙Papersửdụnghàmsincos:𝑃𝐸(𝑝𝑜𝑠,2𝑖)=𝑠𝑖𝑛(𝑝𝑜𝑠100002𝑖𝑑𝑚𝑜𝑑𝑒𝑙)𝑃𝐸(𝑝𝑜𝑠,2𝑖+1)=𝑐𝑜𝑠(𝑝𝑜𝑠100002𝑖𝑑𝑚𝑜𝑑𝑒𝑙)Trongđóvịtríchiều.Mỗichiềucủapositionalencodingmột𝑝𝑜𝑠𝑖sinusoidvớibướcsóngtạothànhcấpsốnhântừđến10000.2πdolựachọndạngnàyvớioffsetcốđịnhthểđượcbiểudiễn𝑘,𝑃𝐸𝑝𝑜𝑠+𝑘nhưmộthàmtuyếntínhcủa.Điềunàyđượcgiảthuyếtgiúphìnhdễ𝑃𝐸𝑝𝑜𝑠họcquanhệvịtrítươngđối.Papercũngthửlearnedpositionalembeddingschokếtquảgầnnhưtươngđương,nhưngchọnsinusoidalencodingthểgiúphìnhtổngquáttớiđộdàichuỗilớnhơnsovớilúchuấnluyện.
Page 8Attention Is All You Need (Transformer)
IV.WhySelf-AttentionTrongphầnnày,tácgiảsosánhself-attentionvớirecurrentlayersconvolutionallayerskhiánhxạmộtchuỗibiếnđộdàisangmộtchuỗicùngđộdài,với,nhưtrongcác(𝑥1,...,𝑥𝑛)(𝑧1,...,𝑧𝑛)𝑥𝑖,𝑧𝑖𝑅𝑑hiddenlayercủaencoderhoặcdecoderđiểnhình.Batiêuchíđượcxemxét:1.Tổngđộphứctạptínhtoántrênmỗilayer2.Mứcđộsongsonghóa,đobằngsốbướctuầntựtốithiểu3.ĐộdàiđườngtruyềngiữacácphụthuộcxatrongmạngHọcphụthuộcxatháchthứctrọngyếutrongsequencetransduction.Mộtyếutốquantrọngảnhhưởngđếnkhảnănghọccácphụthuộcnàyđộdàiđườngtínhiệuforwardbackwardphảiđiqua.Đườngtruyềncàngngắngiữacácvịtrítrongchuỗiinputoutput,việchọcphụthuộcxacàngdễ.A.ĐộphứctạptínhtoánmỗilayerTheoTable1:Self-Attention:𝑂(𝑛2⋅𝑑)Recurrent:𝑂(𝑛⋅𝑑2)Self-attentionnhanhhơnrecurrentkhi.Tácgiảnóiđâythườngtrường𝑛<𝑑hợptrongMThiệnđạivớiword-piecebyte-pair.Vớichuỗirấtdài,thểgiớihạnself-attentiontrongvùnglâncậnkíchthước
Page 9Attention Is All You Need (Transformer)
𝑟.Khiđó:Complexity:𝑂(𝑟⋅𝑛⋅𝑑)Maximumpathlengthtănglên:𝑂(𝑛/𝑟)B.MứcđộsongsonghóaSelf-attentionkếtnốimọivịtrívớisốbướctuầntự:𝑂(1)Trongkhirecurrentcần:𝑂(𝑛)Nghĩaself-attentionsongsonghóatốthơnrệt.C.ĐườngtruyềnchophụthuộcxaHọcphụthuộcxakhókhitínhiệuphảiđiquađườngtruyềndài.Tácgiảsosánhmaximumpathlength:-Self-Attention:𝑂(1)-Recurrent:𝑂(1)-Convolutional:𝑂(𝑙𝑜𝑔𝑘(𝑛))Vớiconvolution,mộtlớpkhôngnốiđượcmọicặpvịtrí.Muốnnốihếtcần𝑘<𝑛chồngnhiềulớp:(contiguous)hoặc(dilated),làmđường𝑂(𝑛/𝑘)𝑂(𝑙𝑜𝑔𝑘(𝑛))truyềndàihơn.D.SosánhvớiConvolutionConvolutionallayersthườngđắthơnrecurrentlayersmộthệsố𝑘Separableconvolutionslàmgiảmđộphứctạpxuống:𝑂(𝑘⋅𝑛⋅𝑑+𝑛⋅𝑑2)Ngaycảkhi,độphứctạpcủaseparableconvolutionbằngvớitổngcủa:𝑘=𝑛-Mộtself-attentionlayer-Mộtpoint-wisefeed-forwardlayerĐâychínhcấutrúcđượcdùngtrongTransformer.E.KhảnăngdiễngiảiMộtlợiíchphụcủaself-attentiontínhdiễngiảicaohơn.Quansátphânbốattentionchothấy:-Cácattentionheadkhácnhauhọccácchứcnăngkhácnhau-NhiềuheadthểhiệnhànhviliênquanđếncấutrúcphápngữnghĩacủacâuĐiềunàyđượctrìnhbàythêmtrongappendixcủapaper.Kếtluận:Self-attentionđượclựachọnvì:-Yêucầusốbướctuầntựtốithiểu-lợithếtínhtoánkhin<dn<dn<d
Page 10Attention Is All You Need (Transformer)
-maximumpathlengthnhỏnhất-ChophéphọcphụthuộcxahiệuquảhơnĐâysởthuyếtchínhđểthaythếrecurrentconvolutionallayersbằngself-attentiontrongTransformer.V.TrainingA.TrainingDataandBatchingEnglish–German(WMT14)4.5McâuByte-PairEncodingVocabularychungsource–target:~37KtokensEnglish–French(WMT14)36McâuWord-piecevocabulary:32KtokensBatching:GomcâutheođộdàixấpxỉnhauMỗibatchchứakhoảng:25Ksourcetokens25KtargettokensCáchbatchnàygiúptậndụngGPUtốthơn.B.HardwareandScheduleHuấnluyệntrên:1máy8NVIDIAP100GPUsBasemodel0.4giây/step100Ksteps12giờ
Page 11Attention Is All You Need (Transformer)
Bigmodel1.0giây/step300Ksteps3.5ngàyTransformerđạtkếtquảmạnhvớithờigianhuấnluyệnthấphơnđángkểsovớicáchìnhtrướcđó.C.OptimizerDùngAdamvới:β1=0.9β1=0.98β1=10−9Learningratethayđổitheocôngthức:𝑙𝑟𝑎𝑡𝑒=𝑑𝑚𝑜𝑑𝑒𝑙−0.5⋅𝑚𝑖𝑛(𝑠𝑡𝑒𝑝_𝑛𝑢𝑚−0.5,𝑠𝑡𝑒𝑝_𝑛𝑢𝑚⋅𝑤𝑎𝑟𝑚𝑢𝑝_𝑠𝑡𝑒𝑝𝑠−1.5)Với:𝑤𝑎𝑟𝑚𝑢𝑝_𝑠𝑡𝑒𝑝𝑠=4000Ýnghĩa:-4000bướcđầu:learningratetăngtuyếntính-Sauđógiảmtheo1/𝑠𝑡𝑒𝑝ĐâylearningratescheduleđặctrưngcủaTransformer.D.RegularizationTrongquátrìnhhuấnluyện,hìnhsửdụngbakỹthuậtregularizationsau:ResidualDropoutDropoutđượcápdụng:
Page 12Attention Is All You Need (Transformer)
-Lênoutputcủamỗisub-layer,trướckhicộngvớiinputquaresidualconnectiontrướckhithựchiệnlayernormalization-LêntổngcủaembeddingpositionalencodingcảencoderdecoderVớibasemodel:𝑃𝑑𝑟𝑜𝑝=0.1Mụcđíchgiảmoverfittingổnđịnhquátrìnhhuấnluyệntrongkiếntrúcnhiềulớp.AttentionDropoutDropoutđượcápdụnglênattentionweightstrongchếscaleddot-productattention,tứcsaukhitínhsoftmaxcủamatrậnattention.Điềunàygiúptránhviệchìnhphụthuộcquámạnhvàomộtsốkếtnốiattentioncụthể.LabelSmoothingTronghuấnluyện,sửdụnglabelsmoothingvớihệsố:ϵ𝑙𝑠=0.1Thaydùngnhãnone-hotcứng,phânphốimụctiêuđượclàm“mềm”hơn.Kếtquảlà:-Perplexitythểtăngnhẹdohìnhítchắcchắnhơn-TuynhiênaccuracyBLEUscoređượccảithiệnLabelsmoothinggiúphìnhtổngquáttốthơngiảmoverconfidence.VI.ResultsA.MachineTranslationTrênbàitoánWMT2014English-to-German,Transformer(big)đạtBLEU=28.4,vượthơn2.0BLEUsovớitấtcảcáchìnhtrướcđó,kểcảensemble,thiếtlậpstate-of-the-artmới.hìnhđượchuấnluyệntrong3.5ngàytrên8GPUP100.NgaycảTransformer(base)cũngvượttoànbộcáchìnhđãcôngbố,trongkhichiphíhuấnluyệnchỉbằngmộtphầnnhỏ.
Page 13Attention Is All You Need (Transformer)
-English–German(WMT14)+Transformer(big):BLEU=28.4+Huấnluyện:3.5ngày,8P100+BasemodelcũngvượtmọihìnhtrướcđóTrênWMT2014English-to-French,Transformer(big)đạtBLEU=41.8,vượttấtcảcácsinglemodeltrướcđóvớichiphíhuấnluyệnnhỏhơn1/4sovớistate-of-the-artcũ.VớiEnglish–French,hìnhbigdùng𝑃𝑑𝑟𝑜𝑝=0.1thay0.3.-English–French(WMT14)+Transformer(big):BLEU=41.8+Chiphíhuấnluyện<1/4SOTAtrướcđó+Dropout:=0.1𝑃𝑑𝑟𝑜𝑝Đốivớibasemodel,kếtquảđượclấybằngcáchtrungbình5checkpointcuốicùng,ghicáchnhau10phút.Vớibigmodel,trungbình20checkpointcuối.Khisuyluận,sửdụngbeamsearchvớibeamsize=4lengthpenaltyα=0.6Độdàioutputtốiđađặtbằnginputlength+50dừngsớmkhithể.Chiphíhuấnluyệnđượcướclượngbằngcáchnhânthờigianhuấnluyện,sốGPUnănglựctínhtoándấuchấmđộngđơnchínhxácduytrìcủamỗiGPU.Bảng2chothấyTransformerđạtBLEUcaohơncáckiếntrúctrướcđótrongkhiFLOPsthấphơnđángkể.B.ModelVariationsĐểđánhgiávaitròcủatừngthànhphần,tácgiảthayđổibasemodelđohiệunăngtrênEnglish-to-Germannewstest2013,khôngdùngcheckpointaveraging.nhóm(A),thayđổisốattentionheadskíchthước,trongkhigiữ𝑑𝑘𝑑𝑣nguyêntổngchiphítínhtoán.Single-headattentionkémhơncấuhìnhtốtnhất0.9BLEU.Tuynhiên,khisốheadquálớn,chấtlượngcũnggiảm.nhóm(B),giảmkíchthướckeylàmgiảmchấtlượnghình.Điềunàycho𝑑𝑘thấyviệcxácđịnhđộtươngthíchkhôngđơngiản,dotproductthểchưaphảihàmtươngthíchtốiưu.nhóm(C)(D),khităngkíchthướchình,chấtlượngcảithiệnnhưkỳvọng.Đồngthời,dropoutđóngvaitròquantrọngtrongviệctránhoverfitting.
Page 14Attention Is All You Need (Transformer)
nhóm(E),thaypositionalencodingdạngsinusoidalbằnglearnedpositionalembeddingschokếtquảgầnnhưtươngđươngbasemodel.C.EnglishConstituencyParsingĐểkiểmtrakhảnăngtổngquáthóa,TransformerđượcápdụngchobàitoánEnglishconstituencyparsing,nơioutputdàihơninputchịuràngbuộccấutrúcmạnh.Trướcđó,RNNsequence-to-sequencekhôngđạtstate-of-the-arttrongchếđộítdữliệu.TácgiảhuấnluyệnmộtTransformer4lớpvớichếđộ𝑑𝑚𝑜𝑑𝑒𝑙=1024semi-supervisedvớithêmkhoảng17Mcâu.Vocabularygồm16KtokenchoWSJ-only32Kchosemi-supervised.Chỉtinhchỉnhmộtsốítsiêuthamsốnhưdropout,learningratebeamsizetrêntậppháttriển;cácthamsốkhácgiữnguyêntừbasetranslationmodel.Khisuyluận,đặtđộdàioutputtốiđabằnginputlength+300,beamsize=21α=0.3KếtquảtrênSection23củaWSJchothấyTransformerđạtF1=92.7trongthiếtlậpsemi-supervised,vượttấtcảcáchìnhđãcôngbốtrướcđóngoạitrừRecurrentNeuralNetworkGrammar.Ngaycảkhichỉhuấnluyệntrên40KcâuWSJ,TransformervẫnvượtBerkeleyParser,chothấykhảnăngtổngquáthóamạnhmẽsangtácvụngoàidịchmáy.

Paper Snapshot

Jun 2017

14 pages

16 min read

Authors

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Topics

TransformerSelf-AttentionSequence Modeling
Ask me