chatgpt應(yīng)用程序 ChatGPT火了,生成式AI在全球都有哪些場景和應(yīng)用?
文丨江志強(qiáng)( AI 創(chuàng)始人)
上線短短5天,用戶量破百萬,兩個月余時間,月活躍用戶數(shù)預(yù)計已達(dá)1億——的火爆,意味著我們迎來了生成式AI的大浪潮。
人工智能(AI)是一個廣泛的術(shù)語,指的是任何能夠進(jìn)行智能行為的技術(shù)。生成式AI是其中一種特定類型的AI,專注于生成新內(nèi)容,如文本、圖片、音樂等。
回顧2022年的AI格局,正是由生成式AI的大模型( )所驅(qū)動。這些大模型正在迅速從研究實(shí)驗(yàn)室走出來,撲向真實(shí)世界的各個場景與應(yīng)用,2023年影響的層面會更大,發(fā)展的速度會更快。另外兩個由大型語言模型 (LLM, ) 技術(shù)驅(qū)動的新興領(lǐng)域,則是幫助人做決策的AI代理(游戲,機(jī)器人等), 以及應(yīng)用在科學(xué)領(lǐng)域的AI for 。
以下是筆者總結(jié)的全球范圍內(nèi)生成式AI的16個方向和場景應(yīng)用,大致可以分為從文本轉(zhuǎn)圖片、從文本轉(zhuǎn)音樂、文本聊天和溝通、文本驅(qū)動機(jī)器人、文本轉(zhuǎn)視頻以及AI做科研等幾大類。
01 Text-to- 前驅(qū)者 -2
-2 是擴(kuò)散模型 ( ) 比較具代表性的大模型之一,也是由公司所開發(fā)的,能根據(jù)文本生成逼真的高分辨率的高質(zhì)量圖像,用于圖像生成。它是基于原先DALL-E(原先用的是模型)的版本來改進(jìn),具有更高的生成質(zhì)量和更大的模型尺寸,推動AI在全球的藝術(shù)革命。
-2的核心主要包括CLIP模型和模型;CLIP( - Pre-)是通過將文本與圖像進(jìn)行對比的預(yù)訓(xùn)練大模型,學(xué)習(xí)文本與圖像之間的關(guān)系,而負(fù)責(zé)聽CLIP的引導(dǎo)生產(chǎn)圖片。
-2目前還是閉源的,用戶可以通過它的WEB界面或API來使用它。
02 開源的 橫空出世
繼-2之后繼續(xù)顛覆藝術(shù)的革命、也引起技術(shù)界轟動的 (文中簡稱SD),是一個基于 (潛在擴(kuò)散模型)來實(shí)現(xiàn)文字轉(zhuǎn)圖片的大模型,類似-2和谷歌的等類似技術(shù),SD可以在短短幾秒鐘內(nèi)生成清晰度高,還原度佳、風(fēng)格選擇較廣的AI圖片,這讓SD在同類技術(shù)中脫穎而出。
SD最大的突破是任何人都能免費(fèi)下載并使用其開源代碼,因?yàn)槟P痛笮≈挥袔讉€G而已!因此在短時間內(nèi) 網(wǎng)站上有100萬次模型的下載,也是破了網(wǎng)站的歷史記錄。這讓AI圖片生成模型不再只是業(yè)內(nèi)少數(shù)公司自我標(biāo)榜技術(shù)能力的玩物,許多創(chuàng)業(yè)公司和研究室正在快速進(jìn)入,集成SD模型來開發(fā)各種不同場景的應(yīng)用,包括我們 AI公司。
SD以掩耳盜鈴之勢迅速迭代,開源社區(qū)也在不斷改進(jìn)SD。在SD v2.0上線不到兩周時間,就迅速更新到v2.1版本。相比于前一版本,主要放寬了內(nèi)容過濾的限制,減少了訓(xùn)練的誤傷,也有這三大特色:更高質(zhì)量的圖片、圖像有了景深、負(fù)向文本的技巧更好的約束AI生成的隨機(jī)性,也支持在單個GPU上來運(yùn)行。
SD官網(wǎng)上寫著 “by the , for the ” 的使命,與熱烈追求民主化的開源,已被證明是改寫了 AI 賽道的游戲規(guī)則,同時也讓 AI公司在不到兩年的時間內(nèi)迅速變成獨(dú)角獸公司,快速融資了1億美金。高質(zhì)量!免費(fèi)開源!更新快!這幾個關(guān)鍵詞就已經(jīng)決定了 的出世必定絕不平凡!借助這一突破性技術(shù)嘗試給你的寵物照片變個身吧!?
AI公司的產(chǎn)品底層就集成了SD的各個版本模型,雖然做成應(yīng)用,我們在模型底層和產(chǎn)品應(yīng)用中間層還是要做非常多的工作,不過我們非常看好 AI這家公司, 也期待他們下一步能繼續(xù)驚世駭俗。
03 谷歌兩個未開源 Text-to- 擴(kuò)散模型
2022年 AI還有兩個-to-text模型。和分別是擴(kuò)散模型 ( ) 和自回歸模型 (Auto- ),兩者不同但互補(bǔ),代表了谷歌兩個不同探索方向,模型都沒有開源或可以集成的API,所以 團(tuán)隊(duì)無法動手研究,但論文仍是富有有趣的見解。不管這些大模型再怎么厲害chatgpt應(yīng)用程序,對 AI這樣做產(chǎn)品應(yīng)用的公司而言,“只能仰望和遠(yuǎn)觀,不能褻玩焉”。
大模型網(wǎng)址: ..
不同于其他已知的文本出圖的大模型,其更注重深層次的語言理解。的預(yù)訓(xùn)練語言模型(T5-XXL)的訓(xùn)練集包含的純文本語料,在文本理解能力上會比有限圖文訓(xùn)練的效果更強(qiáng)。的工作流程為:在輸入后,如“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”(A dog a blue and red ),先使用谷歌自研的T5-XXL編碼器將輸入文本編碼為嵌入,再利用一系列擴(kuò)散模型,從分辨率 64×64 → 256×256 → 1024×1024的過程來生成圖片。結(jié)果表明,預(yù)訓(xùn)練大語言模型和多聯(lián)擴(kuò)散模型在生成高保真圖片方面效果很好。
大模型網(wǎng)址: ..
是一種自回歸文本生成圖片模型( Auto- Text-to- ),其將文本到圖片的生成視為序列到序列的建模問題,類似于機(jī)器翻譯,這使其受益于大語言模型的進(jìn)步。在輸出圖片序列后,使用圖像標(biāo)記器 ViT-將圖片編碼為離散序列,并利用其重建圖片序列的能力,使其成為高質(zhì)量、視覺多樣化的圖像。
04 將顛覆搜索并沖擊許多領(lǐng)域的!
!史上唯一5天內(nèi)獲得100萬用戶的應(yīng)用,兩個月時間用戶量達(dá)1億,打破上個記錄保持者——用9個月時間將用戶量沖上1億的。的快速發(fā)展與日益智能的知識助理角色,挑戰(zhàn)了像谷歌這樣的傳統(tǒng)信息搜索巨頭的產(chǎn)品形態(tài)與商業(yè)模式。
讓機(jī)器學(xué)習(xí)如何更好地理解人類語言,從而更好地回答問題,更好地跟人類寫作,甚至近一步啟發(fā)人類的創(chuàng)造力。本次發(fā)布的是基于GPT-3的微調(diào)版本,即GPT-3.5。它使用了一種新技術(shù)RLHF(“人類反饋強(qiáng)化學(xué)習(xí)”)。相比GPT-3,的主要提升點(diǎn)在于記憶能力,可實(shí)現(xiàn)高度擬人化的連續(xù)對話和問答,也可以按輸入的具體指令產(chǎn)出特定的文本格式。
在各種社區(qū)的討論中被總結(jié)出幾十種內(nèi)容產(chǎn)出的的場景與用例,比如:投資研究報告、工作周報、論文摘要、合同文本、招聘說明書、指定計算機(jī)語言的代碼等等。會關(guān)注 AI 微信公眾號,我們后續(xù)的選題規(guī)劃,會整理出一篇文章,總結(jié)出幾十種的使用方式。
當(dāng)然,也有人工智障的時候,比如:對人類的知識只截止到2021年底,所以實(shí)時信息的搜索還是得借助搜索引擎;數(shù)學(xué)不好;或是如果問它不合邏輯的問題,它會被繞暈。
目前 的極致能力展現(xiàn)在:通過美國醫(yī)療專業(yè)執(zhí)照的考試,通過美國知名商學(xué)院沃頓的MBA考試等接近人的水平。某種意義上,越來越像一個“真實(shí)的人”,只要算力足夠強(qiáng)大,它與人類的互動越多,就將“成長”越快,也能具備更好的邏輯“思考”結(jié)果。只要時間足夠長,人工智能的能力將持續(xù)提升和擴(kuò)展。因此,也引發(fā)了學(xué)術(shù)界的抗?fàn)帯⑴c法律與倫理相關(guān)問題的諸多討論與隱憂。
學(xué)術(shù)界反抗的力量,包括美國斯坦福團(tuán)隊(duì)推出,阻止學(xué)生用AI寫作業(yè)。另一個由一位華裔學(xué)生 創(chuàng)建的,用于檢測文本是否由人工智能寫作出來的。它使用兩個指標(biāo)"困惑度"和"突發(fā)性"來衡量文本的復(fù)雜度,如果對文本感到困惑chatgpt應(yīng)用程序,則其復(fù)雜度較高,更判定可能是人工所編寫的。
是個超級重磅的話題,2023 年對未來的揣想,我們在后續(xù)的文章中,再來繼續(xù)探討吧~
05 用文本來驅(qū)動機(jī)器人Text-to- !
如何給GPT手臂和腿,讓它們能夠清理你整潔的廚房?不像NLP 自然語言處理的人工智能技術(shù),機(jī)器人模型需要與物理世界互動。今年,大型的預(yù)訓(xùn)練模型終于開始解決機(jī)器人技術(shù)中困難的多模態(tài)問題。機(jī)器人技術(shù)中的任務(wù)規(guī)范有多種形式,如模仿一次性演示、遵循語言指示和達(dá)到視覺目標(biāo)。它們通常被認(rèn)為是不同的任務(wù),由專門的模塊來處理。
由英偉達(dá)等機(jī)構(gòu)研發(fā)的VIMA用多模態(tài)的提示來表達(dá)廣泛的機(jī)器人操縱任務(wù)。如此一來,它就可以用單一的模塊來處理文本和視覺標(biāo)記的提示,并自動輸出運(yùn)動動作。為了訓(xùn)練和評估VIMA,他們開發(fā)了新的模擬基準(zhǔn),其中有數(shù)千個程序化生成的任務(wù)和60萬以上專家軌跡用于模仿學(xué)習(xí)。VIMA在模型容量和數(shù)據(jù)大小方面都實(shí)現(xiàn)了強(qiáng)大的可擴(kuò)展性。在相同的訓(xùn)練數(shù)據(jù)下,它在最難的zero-shot泛化設(shè)置中優(yōu)于先前的SOTA方法,任務(wù)成功率高達(dá) 2.9倍。在訓(xùn)練數(shù)據(jù)減少10倍的情況下,VIMA的表現(xiàn)仍然比競爭方法好2.7倍。
與VIMA類似,的研究人員發(fā)布了RT-1,一種多模態(tài)機(jī)器人變換器。它將機(jī)器人的輸入和輸出動作(如相機(jī)圖像、任務(wù)指令和電機(jī)命令)標(biāo)記化,以便在運(yùn)行時進(jìn)行有效的推理。RT-1使用13個 (EDR)機(jī)器人收集的數(shù)據(jù)進(jìn)行訓(xùn)練,包括了700多項(xiàng)任務(wù)、13萬時間片段。與之前的技術(shù)相比,RT-1可以對新的任務(wù)、環(huán)境和物體表現(xiàn)出明顯改善的 zero-shot 泛化能力。
06 萬眾期待的Text-to-
在文本生成視頻領(lǐng)域,我們想向大家介紹三款頭部的研究,他們分別來自于 Meta, 和 。
如果你是一名創(chuàng)作者,當(dāng)你將文本轉(zhuǎn)化成圖片后,一個很自然的想法是:希望能讓圖片動起來,形成一個視頻,從而展示更豐富的細(xì)節(jié)。Meta公司研究的“Make-A-” 中的Text-to-模型就完成了這樣一件事:當(dāng)輸入小馬在喝水時,模型就會根據(jù)文字生成一個小馬喝水的視頻。
Text-to-模型采用無監(jiān)督學(xué)習(xí)的方法生成視頻數(shù)據(jù)集,并且通過插值網(wǎng)絡(luò)進(jìn)行調(diào)整,他的模型結(jié)構(gòu)可以概括如下:
無獨(dú)有偶,谷歌也發(fā)布了自己的文字生成視頻的產(chǎn)品 : 基于 (擴(kuò)散模型)的視頻生成模型。該模型最終生成128張圖片,并在每秒內(nèi)播放24張,最終形成5.8s的高清視頻。
相關(guān)的頭部模型還有: 使用 (因果模型)來通過文字生成視頻,他們的模型考慮了時間變量,因此可以生成任意時長的視頻。
短視頻是互聯(lián)網(wǎng)巨頭的必爭之地,所以Text-to-的發(fā)展也備受矚目,不過 AI觀點(diǎn)是chatgpt應(yīng)用程序,這些巨頭的技術(shù)研究不見得愿意開源出來,因?yàn)闋可娴骄薮蟮纳虡I(yè)利益。另外,這個領(lǐng)域可能也不是小創(chuàng)業(yè)團(tuán)隊(duì)的事,因?yàn)榧幢隳阌泻玫囊曨l預(yù)訓(xùn)練大模型,視頻素材的數(shù)據(jù)取得與訓(xùn)練,是一個成本高昂的問題。
07 Tune-A-調(diào)整視頻生成
Tune-A-最初是由在2023年1月發(fā)表的一篇論文中提出的,展示了僅使用文本提示即可生成簡單的 視頻。這是一種使用單個文本-視頻對進(jìn)行模型微調(diào)的文本生成視頻生成方法,它是從預(yù)訓(xùn)練 Text-to-imae 的擴(kuò)散式模型進(jìn)行擴(kuò)展而來的。訓(xùn)練過程中僅更新了注意力塊中的投影矩陣。Tune-A-支持在個性化的 訓(xùn)練與模型微調(diào),以及在 and 數(shù)據(jù)集上進(jìn)行視頻調(diào)整。
這種文本到視頻生成方法最近被新加坡國立大學(xué)的 Show Lab 的研究人員進(jìn)一步改進(jìn),解決了單個文本-視頻對訓(xùn)練的問題。通過使用自定義的稀疏因果關(guān)注機(jī)制( - ),Tune-A-將空間自注意力( self-)擴(kuò)展到時空域( ),使用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型。
08 Text-to-3D 恐怕還要再等等
從設(shè)計創(chuàng)新產(chǎn)品到電影和游戲中令人驚嘆的視覺效果,3D建模將是創(chuàng)意AI領(lǐng)域?qū)崿F(xiàn)從文本到想法的下一步。2022年已經(jīng)出現(xiàn)了幾個原始但極具潛力的3D生成模型!
: AI 的,可將文本轉(zhuǎn)換為3D生成的圖像。它將文中上述提過的文本出圖 大模型與NeRF的3D功能結(jié)合在一起,生成適用于AR項(xiàng)目或作為雕塑基礎(chǔ)網(wǎng)格的質(zhì)量較高的紋理3D模型,可以從任意角度查看,并可根據(jù)不同的照明條件重新照明。 AI還可以根據(jù)生成圖像模型的2D圖像生成3D模型。
英偉達(dá)公司則有兩項(xiàng)重要的研究成果:和,目標(biāo)是通過允許用戶從文本生成3D模型,使3D內(nèi)容創(chuàng)建更加容易。是一種高分辨率的文本到3D內(nèi)容創(chuàng)建方法,它采用內(nèi)容從粗略到精細(xì)的漸進(jìn)過程,利用低分辨率和高分辨率的擴(kuò)散先驗(yàn)來學(xué)習(xí)目標(biāo)內(nèi)容的3D表現(xiàn)。據(jù)媒體報道,它比的快2倍,僅需40分鐘即可創(chuàng)建高質(zhì)量的3D網(wǎng)格模型。是一個AI模型,結(jié)合了自然語言(NLP)和計算機(jī)視覺技術(shù),用文本描述生成逼真的3D對象。這使用戶可以快速創(chuàng)建逼真的3D模型,無需任何先前的建模技能。
AI認(rèn)為Text-to-3D全球都在比較早期的階段, 因?yàn)橐矝]有開源,所以業(yè)界無法研究和參與。我們曾經(jīng)跟其他AI創(chuàng)業(yè)者交流,他們用 和Nerf放在一起做實(shí)驗(yàn),有點(diǎn)樣子,但是最大的障礙還是全球領(lǐng)域能做訓(xùn)練的3D圖像數(shù)據(jù)少之又少,而用技術(shù)的方法制造AI訓(xùn)練用的數(shù)據(jù)成本也很高,我們?nèi)孕枘托牡群颉?/p>
09 AI自己玩 !?
“我的世界”這個游戲絕對是一個完美的通用智能測試平臺,因?yàn)椋?/p>
2022年我們看到一些實(shí)驗(yàn)室和公司使用大模型來訓(xùn)練AI 在中執(zhí)行各種任務(wù)的成功案例。這些大模型可以建造城堡,挖掘礦物,甚至與其他玩家交互。
為了利用互聯(lián)網(wǎng)上大量可用的未標(biāo)記視頻數(shù)據(jù),開發(fā)了一種視頻預(yù)訓(xùn)練 (VPT) 算法。首先向游戲商家收集2,000小時的少量數(shù)據(jù)集,其數(shù)據(jù)集記錄游戲視頻,也記錄了玩家采取的行動(按鍵操作和鼠標(biāo)移動)。利用這些數(shù)據(jù),訓(xùn)練出一個逆動力學(xué)模型(IDM)以 “預(yù)測” 視頻中每個步驟所采取得動作。通過使用經(jīng)過訓(xùn)練的 IDM模型來標(biāo)記更多的在線視頻數(shù)據(jù),并通過行為克隆來建立學(xué)習(xí)的行為。AI通過觀看70,000小時視頻的大數(shù)據(jù)量就可以被訓(xùn)練自己玩。
還開發(fā)了一個名為 的AI代理,可以根據(jù) 中的文字提示執(zhí)行操作,并獲得了國際機(jī)器學(xué)習(xí)會議的杰出論文獎。微軟也有一個新的AI “代理”,它在游戲內(nèi)運(yùn)行 。
10 AI 發(fā)現(xiàn)新材料
AI在材料科學(xué)領(lǐng)域的應(yīng)用正在快速發(fā)展,其中AI發(fā)現(xiàn)新材料是一項(xiàng)重要的技術(shù)。這項(xiàng)技術(shù)包含了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)兩個步驟。數(shù)據(jù)挖掘通過從大量數(shù)據(jù)中提取有用信息來實(shí)現(xiàn)。AI通過對數(shù)據(jù)的分析,提取有關(guān)材料性能的信息。機(jī)器學(xué)習(xí)是通過利用算法從數(shù)據(jù)中學(xué)習(xí)來實(shí)現(xiàn)的。在這個步驟中,AI利用算法預(yù)測新材料的性能。這個可能更偏向 AI。
今年,發(fā)布了一種名為" "的模型,該模型可以根據(jù)給定的物理和化學(xué)性質(zhì)生成新的材料結(jié)構(gòu)。這項(xiàng)技術(shù)有望在未來幫助材料科學(xué)家發(fā)現(xiàn)更高性能的材料。然而,也存在一些挑戰(zhàn),其中一個是數(shù)據(jù)缺乏。這項(xiàng)技術(shù)需要大量數(shù)據(jù)來做出準(zhǔn)確的預(yù)測,如果數(shù)據(jù)不足,AI可能會做出不準(zhǔn)確的預(yù)測。另一個挑戰(zhàn)是材料的復(fù)雜性。由于材料是復(fù)雜的系統(tǒng),AI可能無法準(zhǔn)確預(yù)測材料在不同環(huán)境中的性能。
11 AI 助力醫(yī)學(xué)研究
旗下公司Deep Mind的 (2021) ,是全球第一個能夠準(zhǔn)確預(yù)測蛋白質(zhì)3D結(jié)構(gòu)的模型。同年7月,Deep Mind宣布了“蛋白質(zhì)宇宙”—— 擴(kuò)大 的蛋白質(zhì)數(shù)據(jù)庫至200M種結(jié)構(gòu),這簡直是非常珍貴的科學(xué)瑰寶!AI在醫(yī)學(xué)研究領(lǐng)域的應(yīng)用(AI for )也在迅速發(fā)展,特別是公司的CEO - Sam 接下來也非常看好的領(lǐng)域。
2022年發(fā)布了一種名為 "" 的模型,該模型可以根據(jù)病人的病史和影像學(xué)數(shù)據(jù)生成診斷和治療建議。這項(xiàng)技術(shù)有望幫助醫(yī)生更快更準(zhǔn)確地診斷疾病,并且還可以幫助研究人員發(fā)現(xiàn)新的治療方法。同年,費(fèi)城生物醫(yī)學(xué)工程卓克索大學(xué)的一項(xiàng)研究發(fā)現(xiàn),可以通過和人類的對話,幫助發(fā)現(xiàn)是否有阿爾茨海默氏病的早期癥狀,準(zhǔn)確率達(dá)80%,高于使用傳統(tǒng)方法的74.6%的正確率,從而及時提示患病風(fēng)險。文章前面提到過,的極致能力已經(jīng)展現(xiàn)在可以通過美國醫(yī)療專業(yè)執(zhí)照的考試。
12 AI可以通過網(wǎng)絡(luò)視頻學(xué)習(xí)嗎?——VPT(“視頻預(yù)訓(xùn)練”)模型
AI 可以學(xué)習(xí)人類復(fù)雜的動作嗎?可以!Jeff 的團(tuán)隊(duì)發(fā)布了VPT(“視頻預(yù)訓(xùn)練”)模型,它甚至可以通過學(xué)習(xí)自己玩“我的世界”()!在“我的世界”中,一個人制作鉆石工具需要完成2萬多個動作,花費(fèi)20分鐘,VPT通過學(xué)習(xí)記錄了人們點(diǎn)擊鍵盤鼠標(biāo)的操作,居然學(xué)會了自己在我的世界中完成這些動作。
換句話說,只要知道了鼠標(biāo)和鍵盤的點(diǎn)擊移動順序,VPT可以通過 (逆向動力模型)學(xué)習(xí)一切我們認(rèn)為只有人類才能做到的復(fù)雜動作,比如如果我們可以準(zhǔn)確記錄數(shù)字繪畫家在電子屏幕上的操作順序,那么模型也可以模仿數(shù)字繪畫家繪制一幅美麗的日落,VPT為AI通過互聯(lián)網(wǎng)上的視頻來學(xué)習(xí)鋪平了道路!
13 AI 代理在談判上的突破
多年來,人們提出了許多用于外交的人工智能方法,主要依賴手工制定的協(xié)議和基于規(guī)則的系統(tǒng),但遠(yuǎn)遠(yuǎn)落后于人的表現(xiàn)(無論有無溝通)。
Meta公司的人工智能 是第一個在外交游戲中達(dá)到人類水平表現(xiàn)的AI代理,在游戲《外交》中,具有對他人的信仰、目標(biāo)和意圖進(jìn)行推理的能力,可以通過表現(xiàn)同理心、使用人類語言交流并建立人際關(guān)系,同時能夠有效地說服甚至欺騙,來達(dá)到在游戲中獲勝的目的。
與此同時,公司也宣布了他們的外交游戲 AI 代理。試想,如果與 的AI對戰(zhàn)會發(fā)生什么?
14 -to-text 音頻生成文本
是由開發(fā)的一個大型開源音頻識別模型。它在英語的語音識別方面達(dá)到了接近人類水平的準(zhǔn)確性和魯棒性(在語音識別中,“魯棒性”通常指一個模型的能力,即在嘈雜或有干擾的環(huán)境下識別語音的準(zhǔn)確性和可靠性)。與其他模型不同的是,使用了更大以及更多樣的訓(xùn)練數(shù)據(jù)集。它使用網(wǎng)絡(luò)上的共680,000小時的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)是多語言和多任務(wù)的,使得除了能將英語轉(zhuǎn)成英文,還能將幾乎所有語種聲音轉(zhuǎn)成對應(yīng)文字以及翻譯成英語。
提供了多種大小的英語/多語言模型,使得開發(fā)者能夠在識別速度和識別質(zhì)量中權(quán)衡。對于英語任務(wù),開發(fā)者使用較小的模型便可達(dá)到良好的效果,識別速度甚至可以達(dá)到實(shí)時處理的效果。如果使用大模型,識別準(zhǔn)確性則可以說超越所有現(xiàn)有商業(yè)公司產(chǎn)品。對于漢語任務(wù),開發(fā)者必須使用大模型才能達(dá)到較準(zhǔn)確的識別,識別速度與中國商業(yè)公司的產(chǎn)品相比有一定差距。
15 Text-to- 文本指令生成音樂
是由谷歌研究院在近日發(fā)布的文本生成音樂模型,只發(fā)布了論文與數(shù)據(jù)集,沒有開源。模型可以從文本描述例如 "平靜的小提琴旋律伴著扭曲的吉他旋律"生成高保真的音樂。將文本指示的音樂生成過程描述為一個層次化的序列到序列的建模任務(wù)。它生成的音樂頻率為,在幾分鐘內(nèi)保持一致。
與之前的模型相比,在音頻質(zhì)量和對文本描述的遵守方面都更優(yōu)。此外,可以以文本描述的旋律為條件,它可以根據(jù)文本說明中描述的風(fēng)格來轉(zhuǎn)換口哨和哼唱的旋律。為了支持未來的研究,谷歌研究院一并公開發(fā)布了。這是一個由5.5K音樂-文本對組成的數(shù)據(jù)集,有人類專家提供的豐富文本描述。
16 別忘記了亞馬遜云的存在
是在亞馬遜云上的一站式大模型開發(fā)平臺,可以提高大模型的開發(fā)效率。在IDC發(fā)布的報告中, 被列入“領(lǐng)導(dǎo)者”陣營,并居于圖中最高最遠(yuǎn)的位置。
亞馬遜云科技自研AI芯片可以提供更具性價比的方案,例如 自研芯片的 EC2 Trn1實(shí)例可節(jié)省高達(dá)50%的訓(xùn)練成本,而Inf2實(shí)例可支持橫向擴(kuò)展分布式推理,方便部署并提升高速推理。
AI選擇AWS作為唯一云服務(wù)提供商,在AWS平臺上搭建了大規(guī)模訓(xùn)練集群。使用 預(yù)集成的SD2.0預(yù)訓(xùn)練模型和優(yōu)化庫, AI能夠使其模型訓(xùn)練具有更高韌性和性能,訓(xùn)練時間和成本可減少58%(這是很多錢)。
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場和對其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請聯(lián)系原作者。如果來源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。
聲明:本站所有文章資源內(nèi)容,如無特殊說明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。