資料內(nèi)容:
1.1 大語言模型相關(guān)概念術(shù)語
1.1.1 語言模型
P(w1,w2,…,wn |θ) S = w1,w2,…,
wn n θ
S
P(w1,w2,…,wn |θ) = P(w1|θ)P(w2|w1, θ)…P(wn|w1,
w2,…,wn−1 , θ)
{wk ,wk+1,…,wn } {w0 ,w1,…,wk−1 }
wk
深度學(xué)習(xí)領(lǐng)域中的術(shù)語“語言模型”不等同于通
常意義上的“處理自然語言的模型”,而是對應(yīng)一種
概率模型,通常用于預(yù)測文本序列的下一個單詞. 語
言模型可以評估 ,其中
為 個單詞組成的文本,即可由參數(shù) 推測某個句
子 出現(xiàn)的概率,實現(xiàn)語言建模. 目前流行的 LLM 通
常以自回歸語言建模為訓(xùn)練任務(wù),對整個句子的出
現(xiàn)的概率可以分解為從左到右每個單詞出現(xiàn)的概率
的 乘,
, 訓(xùn)練的過程中 , 掩蓋住訓(xùn)練語句中
,讓模型以文本序列 預(yù)
測 的分布.
1.1.2 語言預(yù)訓(xùn)練模型與預(yù)訓(xùn)練語言模型
為了將文本中將單詞映射到高維空間中的向量
表示,以便神經(jīng)網(wǎng)絡(luò)模型處理,Mikolov 等人[4] 提出
了 word2vec,系統(tǒng)的介紹了詞嵌入(word embedding)方
法,之后 Pennington 等人[5] 提出 GloVe,同樣致力于通
過淺層神經(jīng)網(wǎng)絡(luò)在通用文本上獲取通用的單詞表征.
這些預(yù)訓(xùn)練模型并不具備預(yù)測文本的語言建模能力,
也不屬最終任務(wù)模型的一部分,有時稱為語訓(xùn)練模型.
不同的是,預(yù)訓(xùn)練語言模型不僅能預(yù)測文本中詞匯
概率,還能生成單詞關(guān)于上下文的向量表征,參數(shù)量
也要高幾個數(shù)量級,作為下游任務(wù)一部分參與微調(diào).
1.1.3 大語言模型
相較于傳統(tǒng)在較小標注數(shù)據(jù)集上進行監(jiān)督訓(xùn)練
的 DNN 模型,GPT 和 BERT 等在無監(jiān)督文本上作自
監(jiān)督訓(xùn)練的預(yù)訓(xùn)練語言模型參數(shù)量達到了 1 億級別,
高了若干數(shù)量級,因此這些模型也被稱為大模型或
大語言模型(LLM). 隨著 LLM 的發(fā)展,其模型參數(shù)
規(guī)模持續(xù)增長,如 GPT-4 等目前已達萬億參數(shù)級別.
雖然 BERT 等早期大模型與之相差甚遠,但仍應(yīng)被稱
作大語言模型[6] . 為了有所區(qū)別,也有人將百億參數(shù)
級別之上的大模型稱為大規(guī)模語言模型(large-scale
language model). 本文中的 PLM 和 LLM 這 2 個術(shù)語
可以互換.
1.1.4 基礎(chǔ)模型
“基礎(chǔ)模型”由斯坦福大學(xué)的 HAI 中心與 2021
年最早提出,指代具有大規(guī)模參數(shù)的機器學(xué)習(xí)模型,
不針對某一特定任務(wù)設(shè)計,通常在某些模態(tài)下的大
量無標注數(shù)據(jù)(如文本)上作自監(jiān)督訓(xùn)練以習(xí)得其分
布特征. 可以作為骨干模型(backbone model),助力各
種下游任務(wù)的解決,一般 PLM 都可稱為基礎(chǔ)模型,
還有不少支持圖像視頻等多模態(tài)的基礎(chǔ)模型存在.