資料內(nèi)容:
第1章: 貝葉斯理論下的Transformer揭秘
1,基于Bayesian Theory,融Hard Attention、Soft Attention、Self-Attention、Multi-head Attention于一身的Transformer架構(gòu)
2,為什么說(shuō)拋棄了傳統(tǒng)模型(例如RNN、 LSTM、CNN等)的Transformer拉開(kāi)了非序列化模型時(shí)代的序幕?
3,為什么說(shuō)Transformer是預(yù)訓(xùn)練領(lǐng)域底層通用引擎?
4,Transformer的Input-Encoder-Decoder-Output模型組建逐一剖析
5,Transformer中Encoder-Decoder模型進(jìn)行Training時(shí)候處理Data的全生命周期七大步驟揭秘
6,Transformer中Encoder-Decoder模型進(jìn)行Inference時(shí)候處理Data的全生命周期六大步驟詳解
7,Teacher Forcing數(shù)學(xué)原理及在Transformer中的應(yīng)用