智通財經APP獲悉,浙商證券發布研究報告稱,11月30日,發布了全新的聊天機器人模型機器人模型chatgpt,引發熱議。該行認為模型的出現對于文字模態的AIGC應用具有重要意義。從下游相關受益應用來看,包括但不限于代碼機器人、小說衍生器、對話類搜索引擎、語伴、語音工作助手、對話虛擬人等。從上游增加需求來看,包括算力、數據標注、自然語言處理(NLP)等。

推薦關注:中文在線(.SZ)、騰訊控股()、百度集團-SW()、閱文集團()、藍色光標(.SZ)、海天瑞聲(.SH)、拓爾思(.SZ)等。

事件:11月30日,發布了全新的聊天機器人模型,引發熱議。使用RLHF技術對進行了訓練,加入了更多人工監督微調。相比GPT-3,的主要提升點在于記憶能力,可實現連續對話,極大地提升了對話交互模式下的用戶體驗。的多元全面的能力使其作為一個通用AI助手參與交互,其在輔助編程領域表現卓越。目前免費開放,海量用戶反饋加速模型迭代。

浙商證券主要觀點如下:

發布對話式交互模型,引發熱議

當地時間11月30日機器人模型chatgpt機器人模型chatgpt,發布了全新的聊天機器人模型。是訓練的對話式大規模語言模型,是的兄弟模型,二者同屬GPT-3.5系列的主力模型。目前處于測試階段,擁有賬戶的用戶可以免費使用。模型采用對話格式,可以跟進回答問題、承認錯誤、挑戰不正確的前提并拒絕不正當的請求,且支持中文。模型一經推出,就引起較高關注度和討論度。作為投資人,馬斯克在社交媒體上展示了自己詢問怎么設計得到的回復,拓展此事件影響力。

采用加入更多人工監督微調的新訓練方式

新加入的訓練方式被稱為“從人類反饋中強化學習”(,RLHF)。這一訓練方法增加了人類對模型輸出結果的演示,并且對結果進行了排序。具體操作上,人工智能訓練者扮演對話的雙方,即用戶和人工智能助手,提供對話樣本。在人類扮演聊天機器人的時候,會讓模型生成一些建議輔助訓練師撰寫回復,訓練師會對回復選項打分排名,將更好的結果輸回到模型中,通過以上獎勵策略對模型進行微調并持續迭代。

在此基礎上完成訓練,可以比GPT-3更好的理解和完成人類指令,展現卓越的模仿人類語言,提供連貫的、有風格與邏輯的、符合對話主題的文段信息的能力。

支持連續對話,可分辨錯誤前提并拒絕不道德請求

相比GPT-3,的主要提升點在于記憶能力。可以儲存對話信息,延續上下文,從而實現連續對話,這在對話場景中至關重要,極大地提升了對話交互模式下的用戶體驗。

此外,相比前輩模型具有以下特征:1)可以承認錯誤,若用戶指出其錯誤,模型會聽取意見并優化答案;2)可以質疑不正確的前提,減少虛假描述,如被詢問“哥倫布2015年來到美國的情景”的問題時,機器人會說明哥倫布不屬于這一時代并調整輸出結果;3)因采用了注重道德水平的訓練方式,在減少有害和不真實的回復上改善顯著,如拒絕回答尋求霸凌他人方案的問題,指出其不正義性。

風險提示:技術發展進程不及預期;版權、倫理和監管風險。

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。