智通財經(jīng)APP獲悉,浙商證券發(fā)布研究報告稱,11月30日,發(fā)布了全新的聊天機器人模型機器人模型chatgpt,引發(fā)熱議。該行認為模型的出現(xiàn)對于文字模態(tài)的AIGC應(yīng)用具有重要意義。從下游相關(guān)受益應(yīng)用來看,包括但不限于代碼機器人、小說衍生器、對話類搜索引擎、語伴、語音工作助手、對話虛擬人等。從上游增加需求來看,包括算力、數(shù)據(jù)標注、自然語言處理(NLP)等。

推薦關(guān)注:中文在線(.SZ)、騰訊控股()、百度集團-SW()、閱文集團()、藍色光標(.SZ)、海天瑞聲(.SH)、拓爾思(.SZ)等。

事件:11月30日,發(fā)布了全新的聊天機器人模型,引發(fā)熱議。使用RLHF技術(shù)對進行了訓練,加入了更多人工監(jiān)督微調(diào)。相比GPT-3,的主要提升點在于記憶能力,可實現(xiàn)連續(xù)對話,極大地提升了對話交互模式下的用戶體驗。的多元全面的能力使其作為一個通用AI助手參與交互,其在輔助編程領(lǐng)域表現(xiàn)卓越。目前免費開放,海量用戶反饋加速模型迭代。

浙商證券主要觀點如下:

發(fā)布對話式交互模型,引發(fā)熱議

當?shù)貢r間11月30日機器人模型chatgpt機器人模型chatgpt,發(fā)布了全新的聊天機器人模型。是訓練的對話式大規(guī)模語言模型,是的兄弟模型,二者同屬GPT-3.5系列的主力模型。目前處于測試階段,擁有賬戶的用戶可以免費使用。模型采用對話格式,可以跟進回答問題、承認錯誤、挑戰(zhàn)不正確的前提并拒絕不正當?shù)恼埱螅抑С种形摹DP鸵唤?jīng)推出,就引起較高關(guān)注度和討論度。作為投資人,馬斯克在社交媒體上展示了自己詢問怎么設(shè)計得到的回復(fù),拓展此事件影響力。

采用加入更多人工監(jiān)督微調(diào)的新訓練方式

新加入的訓練方式被稱為“從人類反饋中強化學習”(,RLHF)。這一訓練方法增加了人類對模型輸出結(jié)果的演示,并且對結(jié)果進行了排序。具體操作上,人工智能訓練者扮演對話的雙方,即用戶和人工智能助手,提供對話樣本。在人類扮演聊天機器人的時候,會讓模型生成一些建議輔助訓練師撰寫回復(fù),訓練師會對回復(fù)選項打分排名,將更好的結(jié)果輸回到模型中,通過以上獎勵策略對模型進行微調(diào)并持續(xù)迭代。

在此基礎(chǔ)上完成訓練,可以比GPT-3更好的理解和完成人類指令,展現(xiàn)卓越的模仿人類語言,提供連貫的、有風格與邏輯的、符合對話主題的文段信息的能力。

支持連續(xù)對話,可分辨錯誤前提并拒絕不道德請求

相比GPT-3,的主要提升點在于記憶能力。可以儲存對話信息,延續(xù)上下文,從而實現(xiàn)連續(xù)對話,這在對話場景中至關(guān)重要,極大地提升了對話交互模式下的用戶體驗。

此外,相比前輩模型具有以下特征:1)可以承認錯誤,若用戶指出其錯誤,模型會聽取意見并優(yōu)化答案;2)可以質(zhì)疑不正確的前提,減少虛假描述,如被詢問“哥倫布2015年來到美國的情景”的問題時,機器人會說明哥倫布不屬于這一時代并調(diào)整輸出結(jié)果;3)因采用了注重道德水平的訓練方式,在減少有害和不真實的回復(fù)上改善顯著,如拒絕回答尋求霸凌他人方案的問題,指出其不正義性。

風險提示:技術(shù)發(fā)展進程不及預(yù)期;版權(quán)、倫理和監(jiān)管風險。

免責聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉(zhuǎn)載,請聯(lián)系原作者。如果來源標注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。