Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
大模型(LLMs)基礎(chǔ)面試題 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-24 10:08:04
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)基礎(chǔ)面試題  PDF 下載 圖1

 

 

資料內(nèi)容:

 

4涌現(xiàn)能力是啥原因?

根據(jù)前人分析和論文總結(jié),大致是2個猜想:·任務(wù)的評價指標不夠平滑;

·復(fù)雜任務(wù)vs子任務(wù),這個其實好理解,比如我們假設(shè)某個任務(wù)T有5個子任務(wù)Sub-T構(gòu)成,每個sub-T隨著模型增長,指標從40%提升到60%,但是最終任務(wù)的指標只從1.1%提升到了7%,也就是說宏觀上看到了涌現(xiàn)現(xiàn)象,但是了任務(wù)效果其實是平滑增長的。

 

5為何現(xiàn)在的大模型大部分是Decoder only結(jié)構(gòu)?

因為decoder-only結(jié)構(gòu)模型在沒有任何微調(diào)數(shù)據(jù)的情況下,zeroshot的表現(xiàn)能力最好。而encoder-decoder則需要在一定量的標注數(shù)據(jù)上做multitask-finetuning才能夠激發(fā)最佳性能。

目前的Large LM的訓(xùn)練范式還是在大規(guī)模語料shang做自監(jiān)督學習,很顯然zero-hot性能更好的decoder-only架構(gòu)才能更好的利用這些無標主的數(shù)據(jù)。

大模型使用decoder-only架構(gòu)除了訓(xùn)練效率和工程實現(xiàn)上的優(yōu)勢外,在理論上因為Encoder的雙向注意力會存在低秩的問題,這可能會削弱模型的表達能力。就生成任務(wù)而言,引入雙向注意力并無實質(zhì)的好處。而Encoder-decoder模型架構(gòu)之所以能夠在某些場景下表現(xiàn)更好,大概是因為它多了一倍參數(shù)。所以在同等參數(shù)量、同等推理成本下,Decoder-only架構(gòu)就是最優(yōu)的選擇了。