構(gòu)建chatgpt數(shù)據(jù) 從大數(shù)據(jù)的角度看ChatGPT
引起業(yè)界的極大關(guān)注,作為大數(shù)據(jù)技術(shù)研究人員,更希望從大數(shù)據(jù)的角度來看待,畢竟在大數(shù)據(jù)驅(qū)動(dòng)的人工智能時(shí)代,此類大模型沒有大數(shù)據(jù),就如同機(jī)器沒有電一樣。
根據(jù)的解釋, 是的兄弟模型,兩者非常相似,不同之處僅在于訓(xùn)練模型的數(shù)據(jù)量。目前關(guān)于的技術(shù)文檔比多一些,因此,我們從文檔中關(guān)于數(shù)據(jù)部分的描述可以看看。關(guān)于、和GPT-3的關(guān)系及技術(shù)差別見本文最后,這里先將模型的訓(xùn)練數(shù)據(jù),包括互聯(lián)網(wǎng)大數(shù)據(jù)和對(duì)話相關(guān)的數(shù)據(jù)集。下面分別介紹數(shù)據(jù)集、處理方法、以及爬蟲作用。
互聯(lián)網(wǎng)大數(shù)據(jù)及處理
模型最主要的數(shù)據(jù)是互聯(lián)網(wǎng)大數(shù)據(jù),是來 的部分?jǐn)?shù)據(jù),共1萬億個(gè)詞匯、570G,覆蓋了2016-2019年間的互聯(lián)網(wǎng)文本數(shù)據(jù),包括HTML、word、pdf等等各類型。這些數(shù)據(jù)可通過亞馬遜的云計(jì)算服務(wù)進(jìn)行訪問,據(jù)說只需25美元就可以設(shè)置一個(gè)亞馬遜帳戶獲取這些抓取數(shù)據(jù)。從頁面語言來看構(gòu)建chatgpt數(shù)據(jù),最多的是英文,共有15億個(gè)頁面(根據(jù)2022年某個(gè)月抓取的頁面統(tǒng)計(jì))。截至2021年12月,我國網(wǎng)頁數(shù)量為3350億個(gè),2021年比2020年增加195億個(gè)頁面,每個(gè)月新增加16.2億構(gòu)建chatgpt數(shù)據(jù),因此 收錄的中文頁面大概不超過總數(shù)的10%。除此以外,還有來自英文和基于互聯(lián)網(wǎng)的兩個(gè)圖書庫(具體未知)。
從這里,我們也可以看出,由于訓(xùn)練數(shù)據(jù)將近50%是英文,在經(jīng)過多層模型學(xué)習(xí)后,最終也可能學(xué)習(xí)到一些所謂“價(jià)值觀”的高層特征,因此在新的AI時(shí)代 文化安全更加富有挑戰(zhàn)性。
對(duì)數(shù)據(jù)集進(jìn)行了兩個(gè)主要的處理,即 低質(zhì)量頁面過濾、 頁面相似性去重,以避免過擬合。這也是采用互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)不可少的步驟。頁面質(zhì)量過濾時(shí),采用的是機(jī)器學(xué)習(xí)方法。選擇作為高質(zhì)量文檔類,訓(xùn)練一個(gè)文檔質(zhì)量分類器(邏輯回歸分類器+的標(biāo)準(zhǔn)切分和作為特征表示),訓(xùn)練好的分類器用于對(duì)的文檔進(jìn)行質(zhì)量過濾。頁面去重時(shí),使用和該質(zhì)量分類器相同的文檔特征表示,利用的進(jìn)行文檔相似性計(jì)算,大概排除了10%的相似頁面,有利于減小相似文檔導(dǎo)致的模型過擬合,以及降低模型訓(xùn)練復(fù)雜度。
支持對(duì)話的相關(guān)數(shù)據(jù)集
GPT-3有很強(qiáng)的上下文表示能力,但缺乏用戶交互行為的學(xué)習(xí)。模型引入了強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)來 理解用戶意圖,正是由于有了很好的意圖理解能力,我們和的對(duì)話才能顯得自如。相應(yīng)的支持訓(xùn)練數(shù)據(jù)主要有:
(1) SFT數(shù)據(jù)集:由標(biāo)注人員對(duì)用戶輸入提示行為進(jìn)行標(biāo)注,共13K個(gè)訓(xùn)練提示,該數(shù)據(jù)集用于微調(diào)GPT-3,采用監(jiān)督學(xué)習(xí)方法 fine- (SFT)。
(2) RM數(shù)據(jù)集:標(biāo)注者對(duì)給定輸入的預(yù)期輸出進(jìn)行排序,共33K個(gè)記錄,數(shù)據(jù)集用于訓(xùn)練獎(jiǎng)勵(lì)模型 (RM)以預(yù)測人類想要的輸出。
(3) PPO數(shù)據(jù)集:沒有標(biāo)注,用于RLHF(g from ,從人類反饋中獲得的強(qiáng)化學(xué)習(xí))微調(diào)。
正是由于這些數(shù)據(jù)集的引入,使得在多輪會(huì)話中,能夠有效地理解我們的意圖,這點(diǎn)倒 是AI一個(gè)很大的進(jìn)步。這里我們也可以看到在AI時(shí)代標(biāo)注之類的勞動(dòng)密集型工作留給人類來做,按此趨勢人類大腦退化不是沒有可能的,哈哈~
、GPT-2、關(guān)系介紹
是于2022年初發(fā)布的語言模型,可以看作是一個(gè)經(jīng)過微調(diào)的新版本GPT-3構(gòu)建chatgpt數(shù)據(jù),它的新在于可以盡量減少有害的、不真實(shí)的和有偏差的輸出。吸取了 的Tay在使用來自 的開放數(shù)據(jù)進(jìn)行訓(xùn)練后出現(xiàn)的種族傾向錯(cuò)誤。這個(gè)是 人工智能安全的視角,在信息化進(jìn)入智能化后,安全升級(jí)為第一要位, 沒有安全也就沒有AI應(yīng)用,自動(dòng)駕駛就是很好的例子。當(dāng)然目前這個(gè)架構(gòu),還很 容易受到數(shù)據(jù)投毒攻擊,后續(xù)有空我再寫一篇人工智能安全視角下的。
這個(gè)模型比GPT-3小了100多倍,僅有13億個(gè)參數(shù),比GPT-2還少。與之前各類語言模型不同的是, 是為對(duì)話構(gòu)建的大型語言模型,也可以稱之為對(duì)話語言模型吧,因此該模型的設(shè)計(jì)目標(biāo)之一是能夠讓模型知道人類的意圖。因此,主要技術(shù)是通過結(jié)合監(jiān)督學(xué)習(xí)+從人類反饋中獲得的強(qiáng)化學(xué)習(xí)(RLHF,g from ),提高GPT-3的輸出質(zhì)量。
爬蟲的作用
盡管目前還是利用他人爬蟲數(shù)據(jù)集,但是作為一個(gè)獨(dú)立成長的AI系統(tǒng),將來免不了自己采集,否則難于跟上用戶變化。雖然進(jìn)入了 AIGC時(shí)代,但是 UGC仍然長期存在,否組用AIGC去訓(xùn)練AI,那就相當(dāng)于自己拉的si自己吃了,最終免不了病態(tài)。當(dāng)然并非否定AIGC,它作為一種輔助數(shù)據(jù)增強(qiáng)的手段還是非常受到大家的歡迎。
從這個(gè)角度看它和搜索引擎有一定相似地方,才會(huì)有很多人認(rèn)為它是搜索引擎的增強(qiáng)或者將來要代替搜索引擎了。搜索引擎只是將爬蟲抓來的頁面提取、解析后進(jìn)行逆向索引,然后存儲(chǔ)關(guān)鍵詞和頁面的對(duì)應(yīng)關(guān)系即可為用戶提供匹配服務(wù),而技術(shù)手段要更深刻很多了,語義理解、大數(shù)據(jù)技術(shù)、監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及意圖理解等等。不過搜索引擎公司所擁有的頁面數(shù)據(jù)比所使用的大數(shù)據(jù)集要大很多,將來自己定制一個(gè)對(duì)話語言模型是很有基礎(chǔ)的,希望不久能出品。
轉(zhuǎn)載請(qǐng)注明:本文來自互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用公眾號(hào)。歡迎針對(duì)文中提到的一些觀點(diǎn)一起討論,后臺(tái)留言。
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場和對(duì)其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請(qǐng)聯(lián)系原作者。如果來源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。
聲明:本站所有文章資源內(nèi)容,如無特殊說明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。