語言模型作用_chatGPT模型參數_模型語言是什么

前言

大型語言模型(LLM)是指能夠處理大量自然語言數據的深度學習模型,它已經在自然語言處理、文本生成、機器翻譯等多個領域中展現出了巨大的潛力。在過去幾年中,LLM領域經歷了飛速的發展,其中和作為兩家領先的公司在這個領域中的表現備受關注。

是LLM領域的重要參與者,其BERT自編碼模型和T5編碼解碼器在自然語言理解任務上取得了優異的表現。BERT模型通過預訓練大規模文本數據,提取出詞向量的同時,也能夠學習到上下文信息。而T5模型則是在BERT的基礎上,進一步將生成式任務融入其中,實現了一體化的自然語言處理能力。這些模型的出現,極大地推動了LLM領域的發展。

與之相反的是,則從2018年開始,堅持使用 only的GPT模型,踐行著「暴力美學」——以大模型的路徑,實現AGI。GPT模型通過預訓練海量語料庫數據,學習到了自然語言中的規律和模式,并在生成式任務中取得了出色的表現。堅信,在模型規模達到足夠大的情況下,單純的模型就可以實現AGI的目標。

除了和外,還有許多其他公司和研究機構也在LLM領域做出了貢獻。例如,的模型、的 NLG模型等等。這些模型的不斷涌現,為LLM領域的發展注入了新的動力。

如果只用解碼器的生成式是通用LLM的王道,2019年10月,同時押注編碼解碼器的T5,整整錯失20個月,直到2021年10月發布FLAN才開始重新轉變為-only。這表明,在實際應用中,不同任務可能需要不同類型的模型,而在特定任務中,編碼解碼器的結構可能比-only模型更加適合。

本文將基于課件回顧大型語言模型的發展歷程,探討它們是如何從最初的基礎模型發展到今天的高級模型的,并介紹的發展歷程,看看如何實現彎道超車。

語言模型作用_chatGPT模型參數_模型語言是什么

Zero-Shot (ZS) and Few-Shot (FS) In-

上下文學習(In- )

近年來,語言模型越來越傾向于使用更大的模型和更多的數據,如下圖所示,模型參數數量和訓練數據量呈指數倍增加的趨勢。

語言模型作用_模型語言是什么_chatGPT模型參數

模型名稱

說明

備注

GPT

with 12 [參數量117M]

on : over 7000 (4.6GB text).

表明大規模語言建??梢猿蔀樽匀徽Z言推理等下游任務的有效預訓練技術。

GPT2

Same as GPT, just (117M -> 1.5B)

on much more data: 4GB -> 40GB of text data ()

涌現出優異的Zero-shot能力。

GPT3

in size (1.5B -> 175B)

data (40GB -> over )

涌現出強大的上下文學習能力,但是在復雜、多步推理任務表現較差。

近年來,隨著GPT模型參數量的增加,GPT2與GPT3模型已經表現出了極佳的上下文學習能力(In- )。這種能力允許模型通過處理上下文信息來更好地理解和處理自然語言數據。GPT模型通過Zero-Shot、One-Shot和Few-Shot學習方法在許多自然語言處理任務中取得了顯著的成果。

其中,Zero-Shot學習是指模型在沒有針對特定任務進行訓練的情況下,可以通過給定的輸入和輸出規范來生成符合規范的輸出結果。這種方法可以在沒有充足樣本的情況下chatGPT模型參數,快速生成需要的輸出結果。One-Shot和Few-Shot學習則是在樣本量較少的情況下,模型可以通過學習一小部分示例來完成相應任務,這使得模型能夠更好地應對小樣本學習和零樣本學習的問題。

上下文學習介紹

語言模型作用_chatGPT模型參數_模型語言是什么

大模型有一個很重要的涌現能力( )就是In- (ICL),也是一種新的范式chatGPT模型參數,指在不進行參數更新的情況下,只在輸入中加入幾個示例就能讓模型進行學習。下面給出ICL的公式定義:

語言模型作用_chatGPT模型參數_模型語言是什么

其中,符號含義如下,從這些符號中也能看出影響ICL的因素:

I:具體任務的描述信息

x:輸入文本

y:標簽

M:語言模型

C:闡述示例

f:打分函數

下面將開始介紹如何提升模型的ICL能力。

訓練優化ICL能力

有監督訓練:

在ICL格式的數據集上,進行有監督的訓練。

就直接把很多任務整合成了ICL的形式精調模型,在52個數據集上取得了比肩直接精調的效果。另外還有部分研究專注于 ,構建更好的任務描述讓模型去理解chatGPT模型參數,而不是只給幾個例子(),比如-PT、FLAN。

自監督訓練:

將自然語言理解的任務轉為ICL的數據格式。

模型語言是什么_chatGPT模型參數_語言模型作用

圖1代表不同自然語言理解任務轉為ICL的輸入輸出形式。

圖2表示訓練樣本示例,包含幾個訓練樣本,前面的樣本作為后面樣本的任務闡述。

推理優化ICL能力

設計

樣本選?。何谋颈硎?、互信息選擇相近的;選??;語言模型生成……

樣本排序:距離度量;信息熵……

任務指示:APE語言模型自動生成

推理步驟:COT、多步驟ICL、Self-Ask

打分函數

:直接取條件概率P(y|x),缺點在于y必須緊跟在輸入的后面;

:再用語言模型過一遍句子,這種方法可以解決上述固定模式的問題,但計算量增加了;

:評估P(x|y)的條件概率(用貝葉斯推一下),這種方法在不平衡數據下表現較好。

影響ICL表現的因素

預訓練語料的多樣性比數量更重要,增加多種來源的數據可能會提升ICL表現;

用下游任務的數據預訓練不一定能提升ICL表現,并且PPL更低的模型也不一定表現更好;

當LM到達一定規模的預訓練步數、尺寸后,會涌現出ICL能力,且ICL效果跟參數量正相關。

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。