chatgpt是開源的嘛 專訪昆侖萬維CEO方漢:ChatGPT的開源來得有多快?
人工智能聊天機器人在全球范圍內持續火爆,海內外多家知名科技公司紛紛加碼AIGC領域,并于近日亮出各自最新進展。
作為中國領先的互聯網平臺出海企業,昆侖萬維在這一波熱潮中反應迅速。2月8日,昆侖萬維宣布旗下的全球最大第三方獨立瀏覽器瀏覽器計劃接入功能,成為全球除微軟Bing搜索引擎、Edge瀏覽器之外,又一集成功能的瀏覽器;2月9日,昆侖萬維更重磅宣布,將與奇點智源合作,在今年內發布中國版類代碼開源,防止大公司技術壟斷。
有分析指出,火爆的背后折射出AIGC(AI )在全球的蓬勃發展,實際上,昆侖萬維在AIGC領域布局已久。
昆侖萬維從2020年開始布局AIGC領域,組建了近百人的研發團隊。去年12月15日,昆侖萬維正式發布「昆侖天工」chatgpt是開源的嘛, AI內容生成能力目前已覆蓋圖像、音樂、文本、編程等內容模態,昆侖萬維已是目前國內AIGC領域全面布局,首個全身心投入AIGC開源社區的公司。
開源似乎寫在昆侖萬維的基因里——2008年3月協助周亞輝先生創立公司的昆侖萬維CEO方漢擁有29年的互聯網從業經驗,不僅是中文奠基人、中文四劍客之一、國內最早的網絡安全專家,更值得關注的是,方漢自1994年開始參與和倡導開源運動,屬于互聯網領域很早就倡導開源的人士。
日前財聯社記者圍繞開源、海內外AIGC技術進展、中國類產品現狀等話題,與方漢進行了深度對話。
以下為專訪實錄:
財聯社:您作為行業的長期觀察者,在您看來此次火出圈,有哪些契機?
方漢:只花了2個月時間,全球用戶就達到了1個億,而實現這一記錄,大概花了9個月時間,花了4.5年。
根本原因在于達到了一個通用人工智能的入門門檻,這其實不論是對于互聯網還是整個人類社會,都是一個標志性節點,我覺得可以跟互聯網的出現或者是移動互聯網的出現相提并論,必然會大大促進人類社會的進步和發展。
方漢:之前AIGC產品也很多,但沒有一個產品能夠越過這個拐點,讓人類覺得它達到了人類智能的一個普通水平,比如有人用通過了谷歌面試,考SAT(美國高校入學資格考試)可以考1020分(滿分1600分)。
并不是一夜之間就出現的。從歷史來看,2018年發布的GPT-1只有大概幾十萬參數,2019年發布了15億參數的GPT-2,2020年發布了1750億參數的GPT-3,2022年基于GPT-3,通過RLHF( from ,即使用強化學習的方法利用人類反饋信號直接優化語言模型)才生成了,把人類歷史上的文本、數據都作為語料在模型里去run。
可以用一個比喻來解釋的原理:一家圖書館從一開始只有幾十萬本書,后來發展到有幾十億本書、現在已經有2000億本書了,讓圖書館管理員去找一本書,仍然容易找錯。我們通過RLHF,讓管理員一口氣找10本,并不告訴他這十本書里哪一本是我想要的,只是給這10本書排個序,即哪個最接近、哪個最不接近,就可以迅速提高管理員找書的準確率。
為什么能夠對普通人的感知這么明顯?我們也知道美國有89%的大中學生在使用做作業、公司的CEO中有13%在使用完成日常文案工作。雖然本質上是針對文本的一種人工智能,但我們在電腦上使用最多的工具是word、其次是美術工具,然后是編程工具。對于能夠在電腦上完成閉環的生產工具來說,能夠影響的人群范圍是最廣的,我覺得這是火出圈的一個重要契機。
財聯社:昆侖萬維從2020年10月開始發起昆侖天工項目,研究通用人工智能(AGI),子項目已經有包括天?巧繪() 、天?樂府()、 天?妙筆() 、天?智碼(),研發投入巨大。昆侖萬維為什么要率先投?AIGC/AGI?向的研發?當時是有什么契機嗎?
方漢:我們是一家全球性的互聯網公司,涉足瀏覽器、社交和游戲三個領域,這三個領域其實都是跟內容比較相關,也就是說我們屬于一個內容互聯網企業。我們認為AIGC是對產業的一個巨大契機,我們也愿意全身心投入chatgpt是開源的嘛,來尋找我們的第二曲線。
對于內容產業來說,我們發現這樣一條規律——當一個創作工具門檻越低的時候,內容創作的量會越大。舉個例子,在手機攝像頭出現之后,才有了快手、抖音短視頻的出現。當時我們認為AIGC必然極大地降低用戶創作內容的門檻,提升用戶創作內容的速度,提高用戶創作內容的質量。將來一個沒有經驗的人去寫小說、做音樂、做視頻,甚至做動畫片,都是完全可以在AIGC技術的加持上實現的,這樣必然導致整個內容產業的一個再次大規模發展。因此我們從2020年10月就開始布局AIGC。對于我們來說,這是很好的一條第二曲線。
財聯社:聽說昆侖天工項目中AI圖像、AI文本、AI編程的模型已經開源,2月9號你們也官宣了將在今年內發布中國版類代碼開源,昆侖萬維為什么要選擇開源中?類GPT-3?模型以及類模型?
方漢:第一,我認為開源大模型是商業閉源大模型的一個有力補充和替代。
去年上半年發布的-2模型是一個閉源模型,但在半年以后開源出了一個產品叫 。從開源網站看,基于閉源的-2的項目只有202個,而基于開源的 的項目有2758個。
背后原因在于,開源能夠讓更多的人參與到相應的大模型的研發,也就是說我們可以用這些開源的大模型來定制一些長尾需求。
第二,在AI領域,中國對于美國來說還是一個跟隨的一個態勢。要想彎道超車,一定要發動全世界開源社區的力量,有更多的人加入到中國的開源項目里去,這樣中國AIGC大模型的能力和水平才能快速趕上美國的像、這樣的公司。
我們堅信開源是AIGC生態發展的土壤和重要推動力量,希望通過眾創積極地促進技術民主化、降低行業門檻。
財聯社:中國已經有不少公司投入到領域chatgpt是開源的嘛,為什么昆侖萬維能做好開源這件事情?
方漢:我們有幾個優勢。第一,我們對于開源領域的認知和經驗積累比較深,從AIGC大潮剛剛興起的時候就堅定地認為開源是AI產業最急需建設的方向。我們也驅動公司的投資部門投資了開源企業。從啟動之日起,我們的AIGC戰略就是圍繞著開源來進行的,現在也開源了很多大模型及聊天機器人等產品,并積極推進AIGC算法開源和模型社區的發展。
此外,我們自2020年起就建設有AI研發團隊,擁有大量的AI專業人才,所以說我們才能在AI領域取得同國際水平接軌的成績。
截至目前,昆侖萬維在全球的平均月活躍用戶有4億,我們有豐富的行業經驗去實現AIGC應用的落地。去年12月份我們的開源項目「昆侖天工」發布以來獲得了大量的好評,有大量的商業公司在試用我們的產品,目前已經有中國移動咪咕等公司的測試使用,我們也成為AI開源最快的項目之一。
財聯社:最近有公司表示,其類技術的各項指標只能達到略強于GPT-2的水平,與當前的相比尚有代差的落后。作為業內人士,您覺得國內現階段在技術層面和的實際存在多大的差距?主要的壁壘有哪些?
方漢:最主要的壁壘是訓練成本。當模型參數上漲的時候,訓練費用也急劇上漲。基本上GPT-3單次訓練成本大概在500萬美金,我們預估GPT-3.5和的單次訓練成本是2000萬美金,也就是說AI行業成了一個資金密集型的行業。
此外,人才方面,中國每年大概畢業370萬的工程師,印度是280萬每年畢業,美國是每年畢業80萬工程師,全世界所有其他國家工程師每年畢業人數在50萬以下。也就說中國目前存量工程師數目大概有6000萬,是全球最大的一個工程師的國家。但是能不能說明我們中國的技術能夠超過美國?還得從另外一個維度去看。比如說目前中國的存量的博士數目是98萬左右,而美國是400萬左右,這是中國跟美國最大的一個差距。
在高端技術人才的數量方面,目前中國跟美國幾乎是1:4的關系;而中國AI領域高端人才跟美國比可能是1:2或1:3。雖然、仍然是全球領先,所有的創新基本上都來自于他們,但我認為從技術角度而言,中國采用跟隨戰略,在半年到1年內趕上百分之七八十的水平,我覺得是沒有問題的。
財聯社:國內的算力水平能不能滿足AI企業包括訓練大模型等的需求?
方漢:從阿里到騰訊、從華為到金山,中國公有云其實還是蠻發達的。AI企業通過租用的方法來滿足訓練大模型的需求,我覺得沒有任何問題,但問題就在于單次訓練的成本高,所以說我覺得還是有一定實力的企業才能實現AI大模型的訓練。
財聯社:AIGC領域持續突破將是公司未來的一大看點,公司在AIGC、代碼開源等方面,未來有哪些計劃?想要達成什么目標?
方漢:第一步,我們會堅定不移推動代碼開源的工作,讓AIGC的開源社區持續增長,希望能夠率先發布開源的代碼,讓技術實現平等,讓中國的中小企業也能享受到AIGC進步帶來的紅利。
第二步,我們其實也觀察到,AIGC就好像早期的互聯網技術,從技術到產品還是有很長的路要走。而我們中國企業最善于的是模式創新,就是拿一個很先進的技術去產生更有創造力的產品,所以我們也會花一部分精力去做AI技術的產品化。
我們認為,類的AIGC的高速成長,必然會催生出下一代的獨角獸互聯網企業。
財聯社:您認為,國內未來兩年有沒有公司可能完成對標的產品?
方漢:我覺得沒有任何問題。技術迭代的速度是非常快的,我認為訓練成本也會隨著優化而大幅下降,也會有一些新的產品出現。
的技術領先優勢其實窗口期并不長,所以說未來在我們的共同努力下,一定會出現可以完全對標的技術和產品,也許是來自于昆侖萬維,也許是來自于國內的其他公司。
海量資訊、精準解讀,盡在新浪財經APP
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。