chatgpt是開源的嘛 專訪昆侖萬(wàn)維CEO方漢:ChatGPT的開源來(lái)得有多快?
人工智能聊天機(jī)器人在全球范圍內(nèi)持續(xù)火爆,海內(nèi)外多家知名科技公司紛紛加碼AIGC領(lǐng)域,并于近日亮出各自最新進(jìn)展。
作為中國(guó)領(lǐng)先的互聯(lián)網(wǎng)平臺(tái)出海企業(yè),昆侖萬(wàn)維在這一波熱潮中反應(yīng)迅速。2月8日,昆侖萬(wàn)維宣布旗下的全球最大第三方獨(dú)立瀏覽器瀏覽器計(jì)劃接入功能,成為全球除微軟Bing搜索引擎、Edge瀏覽器之外,又一集成功能的瀏覽器;2月9日,昆侖萬(wàn)維更重磅宣布,將與奇點(diǎn)智源合作,在今年內(nèi)發(fā)布中國(guó)版類代碼開源,防止大公司技術(shù)壟斷。
有分析指出,火爆的背后折射出AIGC(AI )在全球的蓬勃發(fā)展,實(shí)際上,昆侖萬(wàn)維在AIGC領(lǐng)域布局已久。
昆侖萬(wàn)維從2020年開始布局AIGC領(lǐng)域,組建了近百人的研發(fā)團(tuán)隊(duì)。去年12月15日,昆侖萬(wàn)維正式發(fā)布「昆侖天工」chatgpt是開源的嘛, AI內(nèi)容生成能力目前已覆蓋圖像、音樂(lè)、文本、編程等內(nèi)容模態(tài),昆侖萬(wàn)維已是目前國(guó)內(nèi)AIGC領(lǐng)域全面布局,首個(gè)全身心投入AIGC開源社區(qū)的公司。
開源似乎寫在昆侖萬(wàn)維的基因里——2008年3月協(xié)助周亞輝先生創(chuàng)立公司的昆侖萬(wàn)維CEO方漢擁有29年的互聯(lián)網(wǎng)從業(yè)經(jīng)驗(yàn),不僅是中文奠基人、中文四劍客之一、國(guó)內(nèi)最早的網(wǎng)絡(luò)安全專家,更值得關(guān)注的是,方漢自1994年開始參與和倡導(dǎo)開源運(yùn)動(dòng),屬于互聯(lián)網(wǎng)領(lǐng)域很早就倡導(dǎo)開源的人士。
日前財(cái)聯(lián)社記者圍繞開源、海內(nèi)外AIGC技術(shù)進(jìn)展、中國(guó)類產(chǎn)品現(xiàn)狀等話題,與方漢進(jìn)行了深度對(duì)話。
以下為專訪實(shí)錄:
財(cái)聯(lián)社:您作為行業(yè)的長(zhǎng)期觀察者,在您看來(lái)此次火出圈,有哪些契機(jī)?
方漢:只花了2個(gè)月時(shí)間,全球用戶就達(dá)到了1個(gè)億,而實(shí)現(xiàn)這一記錄,大概花了9個(gè)月時(shí)間,花了4.5年。
根本原因在于達(dá)到了一個(gè)通用人工智能的入門門檻,這其實(shí)不論是對(duì)于互聯(lián)網(wǎng)還是整個(gè)人類社會(huì),都是一個(gè)標(biāo)志性節(jié)點(diǎn),我覺得可以跟互聯(lián)網(wǎng)的出現(xiàn)或者是移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)相提并論,必然會(huì)大大促進(jìn)人類社會(huì)的進(jìn)步和發(fā)展。
方漢:之前AIGC產(chǎn)品也很多,但沒有一個(gè)產(chǎn)品能夠越過(guò)這個(gè)拐點(diǎn),讓人類覺得它達(dá)到了人類智能的一個(gè)普通水平,比如有人用通過(guò)了谷歌面試,考SAT(美國(guó)高校入學(xué)資格考試)可以考1020分(滿分1600分)。
并不是一夜之間就出現(xiàn)的。從歷史來(lái)看,2018年發(fā)布的GPT-1只有大概幾十萬(wàn)參數(shù),2019年發(fā)布了15億參數(shù)的GPT-2,2020年發(fā)布了1750億參數(shù)的GPT-3,2022年基于GPT-3,通過(guò)RLHF( from ,即使用強(qiáng)化學(xué)習(xí)的方法利用人類反饋信號(hào)直接優(yōu)化語(yǔ)言模型)才生成了,把人類歷史上的文本、數(shù)據(jù)都作為語(yǔ)料在模型里去run。
可以用一個(gè)比喻來(lái)解釋的原理:一家圖書館從一開始只有幾十萬(wàn)本書,后來(lái)發(fā)展到有幾十億本書、現(xiàn)在已經(jīng)有2000億本書了,讓圖書館管理員去找一本書,仍然容易找錯(cuò)。我們通過(guò)RLHF,讓管理員一口氣找10本,并不告訴他這十本書里哪一本是我想要的,只是給這10本書排個(gè)序,即哪個(gè)最接近、哪個(gè)最不接近,就可以迅速提高管理員找書的準(zhǔn)確率。
為什么能夠?qū)ζ胀ㄈ说母兄@么明顯?我們也知道美國(guó)有89%的大中學(xué)生在使用做作業(yè)、公司的CEO中有13%在使用完成日常文案工作。雖然本質(zhì)上是針對(duì)文本的一種人工智能,但我們?cè)陔娔X上使用最多的工具是word、其次是美術(shù)工具,然后是編程工具。對(duì)于能夠在電腦上完成閉環(huán)的生產(chǎn)工具來(lái)說(shuō),能夠影響的人群范圍是最廣的,我覺得這是火出圈的一個(gè)重要契機(jī)。
財(cái)聯(lián)社:昆侖萬(wàn)維從2020年10月開始發(fā)起昆侖天工項(xiàng)目,研究通用人工智能(AGI),子項(xiàng)目已經(jīng)有包括天?巧繪() 、天?樂(lè)府()、 天?妙筆() 、天?智碼(),研發(fā)投入巨大。昆侖萬(wàn)維為什么要率先投?AIGC/AGI?向的研發(fā)?當(dāng)時(shí)是有什么契機(jī)嗎?
方漢:我們是一家全球性的互聯(lián)網(wǎng)公司,涉足瀏覽器、社交和游戲三個(gè)領(lǐng)域,這三個(gè)領(lǐng)域其實(shí)都是跟內(nèi)容比較相關(guān),也就是說(shuō)我們屬于一個(gè)內(nèi)容互聯(lián)網(wǎng)企業(yè)。我們認(rèn)為AIGC是對(duì)產(chǎn)業(yè)的一個(gè)巨大契機(jī),我們也愿意全身心投入chatgpt是開源的嘛,來(lái)尋找我們的第二曲線。
對(duì)于內(nèi)容產(chǎn)業(yè)來(lái)說(shuō),我們發(fā)現(xiàn)這樣一條規(guī)律——當(dāng)一個(gè)創(chuàng)作工具門檻越低的時(shí)候,內(nèi)容創(chuàng)作的量會(huì)越大。舉個(gè)例子,在手機(jī)攝像頭出現(xiàn)之后,才有了快手、抖音短視頻的出現(xiàn)。當(dāng)時(shí)我們認(rèn)為AIGC必然極大地降低用戶創(chuàng)作內(nèi)容的門檻,提升用戶創(chuàng)作內(nèi)容的速度,提高用戶創(chuàng)作內(nèi)容的質(zhì)量。將來(lái)一個(gè)沒有經(jīng)驗(yàn)的人去寫小說(shuō)、做音樂(lè)、做視頻,甚至做動(dòng)畫片,都是完全可以在AIGC技術(shù)的加持上實(shí)現(xiàn)的,這樣必然導(dǎo)致整個(gè)內(nèi)容產(chǎn)業(yè)的一個(gè)再次大規(guī)模發(fā)展。因此我們從2020年10月就開始布局AIGC。對(duì)于我們來(lái)說(shuō),這是很好的一條第二曲線。
財(cái)聯(lián)社:聽說(shuō)昆侖天工項(xiàng)目中AI圖像、AI文本、AI編程的模型已經(jīng)開源,2月9號(hào)你們也官宣了將在今年內(nèi)發(fā)布中國(guó)版類代碼開源,昆侖萬(wàn)維為什么要選擇開源中?類GPT-3?模型以及類模型?
方漢:第一,我認(rèn)為開源大模型是商業(yè)閉源大模型的一個(gè)有力補(bǔ)充和替代。
去年上半年發(fā)布的-2模型是一個(gè)閉源模型,但在半年以后開源出了一個(gè)產(chǎn)品叫 。從開源網(wǎng)站看,基于閉源的-2的項(xiàng)目只有202個(gè),而基于開源的 的項(xiàng)目有2758個(gè)。
背后原因在于,開源能夠讓更多的人參與到相應(yīng)的大模型的研發(fā),也就是說(shuō)我們可以用這些開源的大模型來(lái)定制一些長(zhǎng)尾需求。
第二,在AI領(lǐng)域,中國(guó)對(duì)于美國(guó)來(lái)說(shuō)還是一個(gè)跟隨的一個(gè)態(tài)勢(shì)。要想彎道超車,一定要發(fā)動(dòng)全世界開源社區(qū)的力量,有更多的人加入到中國(guó)的開源項(xiàng)目里去,這樣中國(guó)AIGC大模型的能力和水平才能快速趕上美國(guó)的像、這樣的公司。
我們堅(jiān)信開源是AIGC生態(tài)發(fā)展的土壤和重要推動(dòng)力量,希望通過(guò)眾創(chuàng)積極地促進(jìn)技術(shù)民主化、降低行業(yè)門檻。
財(cái)聯(lián)社:中國(guó)已經(jīng)有不少公司投入到領(lǐng)域chatgpt是開源的嘛,為什么昆侖萬(wàn)維能做好開源這件事情?
方漢:我們有幾個(gè)優(yōu)勢(shì)。第一,我們對(duì)于開源領(lǐng)域的認(rèn)知和經(jīng)驗(yàn)積累比較深,從AIGC大潮剛剛興起的時(shí)候就堅(jiān)定地認(rèn)為開源是AI產(chǎn)業(yè)最急需建設(shè)的方向。我們也驅(qū)動(dòng)公司的投資部門投資了開源企業(yè)。從啟動(dòng)之日起,我們的AIGC戰(zhàn)略就是圍繞著開源來(lái)進(jìn)行的,現(xiàn)在也開源了很多大模型及聊天機(jī)器人等產(chǎn)品,并積極推進(jìn)AIGC算法開源和模型社區(qū)的發(fā)展。
此外,我們自2020年起就建設(shè)有AI研發(fā)團(tuán)隊(duì),擁有大量的AI專業(yè)人才,所以說(shuō)我們才能在AI領(lǐng)域取得同國(guó)際水平接軌的成績(jī)。
截至目前,昆侖萬(wàn)維在全球的平均月活躍用戶有4億,我們有豐富的行業(yè)經(jīng)驗(yàn)去實(shí)現(xiàn)AIGC應(yīng)用的落地。去年12月份我們的開源項(xiàng)目「昆侖天工」發(fā)布以來(lái)獲得了大量的好評(píng),有大量的商業(yè)公司在試用我們的產(chǎn)品,目前已經(jīng)有中國(guó)移動(dòng)咪咕等公司的測(cè)試使用,我們也成為AI開源最快的項(xiàng)目之一。
財(cái)聯(lián)社:最近有公司表示,其類技術(shù)的各項(xiàng)指標(biāo)只能達(dá)到略強(qiáng)于GPT-2的水平,與當(dāng)前的相比尚有代差的落后。作為業(yè)內(nèi)人士,您覺得國(guó)內(nèi)現(xiàn)階段在技術(shù)層面和的實(shí)際存在多大的差距?主要的壁壘有哪些?
方漢:最主要的壁壘是訓(xùn)練成本。當(dāng)模型參數(shù)上漲的時(shí)候,訓(xùn)練費(fèi)用也急劇上漲。基本上GPT-3單次訓(xùn)練成本大概在500萬(wàn)美金,我們預(yù)估GPT-3.5和的單次訓(xùn)練成本是2000萬(wàn)美金,也就是說(shuō)AI行業(yè)成了一個(gè)資金密集型的行業(yè)。
此外,人才方面,中國(guó)每年大概畢業(yè)370萬(wàn)的工程師,印度是280萬(wàn)每年畢業(yè),美國(guó)是每年畢業(yè)80萬(wàn)工程師,全世界所有其他國(guó)家工程師每年畢業(yè)人數(shù)在50萬(wàn)以下。也就說(shuō)中國(guó)目前存量工程師數(shù)目大概有6000萬(wàn),是全球最大的一個(gè)工程師的國(guó)家。但是能不能說(shuō)明我們中國(guó)的技術(shù)能夠超過(guò)美國(guó)?還得從另外一個(gè)維度去看。比如說(shuō)目前中國(guó)的存量的博士數(shù)目是98萬(wàn)左右,而美國(guó)是400萬(wàn)左右,這是中國(guó)跟美國(guó)最大的一個(gè)差距。
在高端技術(shù)人才的數(shù)量方面,目前中國(guó)跟美國(guó)幾乎是1:4的關(guān)系;而中國(guó)AI領(lǐng)域高端人才跟美國(guó)比可能是1:2或1:3。雖然、仍然是全球領(lǐng)先,所有的創(chuàng)新基本上都來(lái)自于他們,但我認(rèn)為從技術(shù)角度而言,中國(guó)采用跟隨戰(zhàn)略,在半年到1年內(nèi)趕上百分之七八十的水平,我覺得是沒有問(wèn)題的。
財(cái)聯(lián)社:國(guó)內(nèi)的算力水平能不能滿足AI企業(yè)包括訓(xùn)練大模型等的需求?
方漢:從阿里到騰訊、從華為到金山,中國(guó)公有云其實(shí)還是蠻發(fā)達(dá)的。AI企業(yè)通過(guò)租用的方法來(lái)滿足訓(xùn)練大模型的需求,我覺得沒有任何問(wèn)題,但問(wèn)題就在于單次訓(xùn)練的成本高,所以說(shuō)我覺得還是有一定實(shí)力的企業(yè)才能實(shí)現(xiàn)AI大模型的訓(xùn)練。
財(cái)聯(lián)社:AIGC領(lǐng)域持續(xù)突破將是公司未來(lái)的一大看點(diǎn),公司在AIGC、代碼開源等方面,未來(lái)有哪些計(jì)劃?想要達(dá)成什么目標(biāo)?
方漢:第一步,我們會(huì)堅(jiān)定不移推動(dòng)代碼開源的工作,讓AIGC的開源社區(qū)持續(xù)增長(zhǎng),希望能夠率先發(fā)布開源的代碼,讓技術(shù)實(shí)現(xiàn)平等,讓中國(guó)的中小企業(yè)也能享受到AIGC進(jìn)步帶來(lái)的紅利。
第二步,我們其實(shí)也觀察到,AIGC就好像早期的互聯(lián)網(wǎng)技術(shù),從技術(shù)到產(chǎn)品還是有很長(zhǎng)的路要走。而我們中國(guó)企業(yè)最善于的是模式創(chuàng)新,就是拿一個(gè)很先進(jìn)的技術(shù)去產(chǎn)生更有創(chuàng)造力的產(chǎn)品,所以我們也會(huì)花一部分精力去做AI技術(shù)的產(chǎn)品化。
我們認(rèn)為,類的AIGC的高速成長(zhǎng),必然會(huì)催生出下一代的獨(dú)角獸互聯(lián)網(wǎng)企業(yè)。
財(cái)聯(lián)社:您認(rèn)為,國(guó)內(nèi)未來(lái)兩年有沒有公司可能完成對(duì)標(biāo)的產(chǎn)品?
方漢:我覺得沒有任何問(wèn)題。技術(shù)迭代的速度是非常快的,我認(rèn)為訓(xùn)練成本也會(huì)隨著優(yōu)化而大幅下降,也會(huì)有一些新的產(chǎn)品出現(xiàn)。
的技術(shù)領(lǐng)先優(yōu)勢(shì)其實(shí)窗口期并不長(zhǎng),所以說(shuō)未來(lái)在我們的共同努力下,一定會(huì)出現(xiàn)可以完全對(duì)標(biāo)的技術(shù)和產(chǎn)品,也許是來(lái)自于昆侖萬(wàn)維,也許是來(lái)自于國(guó)內(nèi)的其他公司。
海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場(chǎng)和對(duì)其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請(qǐng)聯(lián)系原作者。如果來(lái)源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問(wèn)題不想在本站發(fā)布,來(lái)信即刪。
聲明:本站所有文章資源內(nèi)容,如無(wú)特殊說(shuō)明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。