界面新聞記者 | 李京亞

空前崛起之際,谷歌毅然打響了絕地反擊戰。

北京時間12月7日凌晨,谷歌CEO桑達爾?皮查伊和 CEO戴密斯·哈薩比斯在谷歌官網聯名發文,官宣了最新多模態大模型 1.0(雙子星)版本正式上線。這個上線時間早于外界猜測的明年1月,保密程度很高,僅有少數媒體提前猜出。

1.0是谷歌籌備了一年之久的GPT4真正競品,也是目前谷歌能拿出手的功能最為強悍、適配最為靈活的大模型,包括三種不同套件,分別是 , Pro和 Nano。其中的能力最強,復雜度最高,能夠處理最為困難的多模態任務;Pro能力稍弱,是一個可擴展至多任務的模型;Nano則是一款可以在手機端側運行的模型。這說明,的觸達范圍很廣,可以下探至數據中心,也可以上行至移動設備端側。

ai不會畫手_畫手會雇傭清稿的人嗎_畫手會和自己的畫長得很像

谷歌的Bard聊天機器人,此番也已經升級到了,可以說的初始版本已于今日開始在Bard中提供。從5月的I/O大會之后,谷歌就將自己此前最強的人工智能模型PaLm 2融入了的能力之中。

在一段公布的演示視頻中,桑達爾?皮查伊展示了對視頻、圖像的非同凡響的識別能力。在視頻中,極為自如地在圖像、音頻、視頻各模態之間的轉換,展現了驚人的解鎖應用場景與產品形態的潛力。

ai不會畫手_畫手會和自己的畫長得很像_畫手會雇傭清稿的人嗎

圖源:谷歌演示視頻

僅從谷歌釋出的演示視頻結果看,市面上現有的全部多模態大模型與的性能表現都有代際差,包括Meta 5月開源的跨6個模態的AI模型以及GPT-4。

ai不會畫手_畫手會和自己的畫長得很像_畫手會雇傭清稿的人嗎

圖源:谷歌

今年4月開始,隨著多模態技術不斷升級,以及疊加模型調用成本等性能的優化,GPT4及國內外一眾模型持續迭代,實現了跨模態性能的不斷增強。一時間,多模態大模型呈百花齊放之勢。但有國內頭部大模型初創開發工程師對界面新聞記者表示,現今絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用,而并非從頭開始訓練的多模態的大模型,這是多模態大模型目前“不能言說的秘密”。

畫手會雇傭清稿的人嗎_畫手會和自己的畫長得很像_ai不會畫手

圖源:中信建投證券

谷歌自己也提到,到目前為止,創建多模態模型的標準方法基本是針對不同模態訓練單獨的組件,然后將它們拼接以粗略模仿其中一些功能。這會導致這些模型有時擅長執行某些任務,例如描述圖像,但難以處理更概念性和復雜的推理。

其通過60頁的相關技術報告證明,是一個真正原生的多模態大模型,因為從最初的預訓練數據開始,就在針對不同模態的模型進行訓練,因此其功能在每個重大領域都達到了SOTA( of the art,特指領先水平的大模型)。

畫手會雇傭清稿的人嗎_ai不會畫手_畫手會和自己的畫長得很像

圖源:谷歌技術報告

在權威MMMU基準測試中, 獲得了59.4%的SOTA分數。這項基準測試是經典的多模態測試,由跨不同領域的多模式任務組成,能夠體現大模型的深度推理能力,而推理過程本身,需要花費的成本要遠遠高于模型訓練。谷歌技術報告同時顯示,谷歌是使用和來訓練,尤其是訓練 時,使用了跨多個數據中心的大量。

多模態能力之外,在專業知識儲備和高級編碼等領域都處在最前列。比如, 在MMLU(大規模多任務語言理解數據集)中的得分率高達90.0%,這款MMLU數據集包含數學、物理、歷史、法律、醫學和倫理等57個科目,專門用于測試大模型的知識儲備和解決問題能力。 是第一個在MMLU上超越人類專家的大模型。

值得一提的是,谷歌此番并沒有透露和Pro版本的具體參數規模,但根據量子位的分析,與谷歌此前的主力大模型PaLM-2相比,參數規模上要增大許多。此前,PaLM-2被曝參數規模為3400億。

谷歌方面表示,將通過谷歌產品推向數十億用戶。從12月13日開始,開發者和企業客戶可以通過 AI 或 AI中的 API訪問 Pro。

今天凌晨,谷歌還同步發布了最新版本的計算芯片TPU v5p,相較上一代TPU v4性價比提升2.3倍,但這則消息完全被的光芒所掩蓋。