the dots

2014年, 和他在蒙特利爾大學的同事們正在研究如何把編碼器-解碼器用在機器翻譯領域。這篇即將成為機器學習研究里程碑之一的論文,在當時有些卡殼。論文的一作, 的博士后 Cho發現,他的模型在長句翻譯上依然有很多問題。這些問題不解決,模型總顯得不夠強大。

當時的蒙特利爾大學正在和IBM公司談合作,后者負責對接的科學家從紐約來到蒙特利爾時,和向他展示了這個進展中的研究,而后者很快指出了這個模型的一個缺失:

它缺少一個對齊()的機制,也就是判斷目標輸出語言里的哪些詞與輸入語言是對齊的。

在后來發表的論文中,這種對齊的思想加入了進去,長句翻譯的效果得到提升,而這篇論文以及由后來聯合創辦的Ilya 發表的另一篇論文一起奠定了模型的基本思想,其中使用的對齊思路里,也出現了后來影響人工智能走向的注意力機制的影子,它們被認為是后來各類模型走向底層統一的源頭之一。

這名給提出建議的科學家是周伯文。

當時周伯文已經在IBM工作10多年,在IBM著名的T. J. 研究中心領導自然語言理解與語音翻譯團隊。在2012年 證明了神經網絡的可行性后,周伯文帶領他的團隊成為最早一批撲到神經網絡與自然語言表征相關研究的科學家。

在蒙特利爾忙著寫論文的同時,周伯文在紐約也開始了基于加上注意力機制架構做的研究,而與大多數研究方向不同,他選擇了生成式寫作的領域。看一看他過往的研究主題,會發現里面有一條長長的線,終端指向通用人工智能。他相信通用人工智能會實現,而且必經之路就是生成式人工智能。

“凡是我不能創造的,我都沒有真正理解”。 周伯文在當年的一場學術會議上引用了著名科學家費曼的話,他認為,人工智能也必須會創造。

很快,周伯文團隊發表的生成式摘要論文引起了不少注意,但他依然覺得它和人類的行為特別是泛化方面還是差了一些。他認為當時的注意力機制存在缺陷——它們都是根據輸出來判斷輸入中需要更加注意(pay more )的地方。

周伯文給團隊做了個比喻,就好像大學里的期末考試,如果學生通過老師在考前畫重點來針對性準備復習,考試的效果當然會好,但學生通常考完就忘了。他認為,如果要做通用人工智能,要考慮的就應該是長期效果和對AI模型更充分的訓練,所以不應該看輸出,而只能看輸入,就像人不能用未來的信息決定現在的判斷。這就要設計一個更好的編碼器,和更好的自然語言表征機制。

最終他和團隊提出了多跳自注意力(-hop self-)機制來改善編碼器——若繼續拿考試做比喻,就是完全不考慮會考什么,只看書,來理解哪里需要更多地賦予注意力,也就是學習自注意力,并且不能限制在單獨某一科目或任務的學習上,所以要反復的看,通過多跳來理解內在的依賴關系。2016年底這篇論文完成,2017年初發表,成為第一個完全不考慮下游任務的自然語言表征模式。

在那兩年,有關神經網絡的一切都在蓬勃的發展著。同年年底,后來被稱為一切繁榮的開端的那篇論文出現了,來自谷歌的幾個研究員寫下《 is All you need》的題目,給世界帶來了模型。

在這篇論文中,周伯文的論文被引用,在引用角標對應的地方,多跳自注意力的名字演變成了“多頭自注意力”。

“這是一個很好的研究,他們在多頭自注意力基礎上拓展了兩件事。第一就是利用強大的算力,對注意力機制疊了很多層。第二很聰明也很簡單,就是把RNN拋棄了,只用位置編碼,輕裝上陣因此可以用更多的數據。最終證明效果很好。”周伯文對我回憶道。RNN/LSTM之前一直和模型一起出現,它可以捕捉上下文的關系,但因為需要基于序列順序來做,所以計算資源消耗巨大。尤其會出現梯度爆炸的問題。

is all you need,這個后來很大程度改變了學術論文起標題風格的短句,今天的關注點都在“”上,但在當時的研究背景里,它更像是在有針對性的喊話:

多頭重要,自注意力重要,但RNN不再重要,這打破了當時所有人搭建模型時的慣例,也是和周伯文等之前研究者的論文最大的區別。

這篇論文和架構徹底改變了一切,它解決了模型長距離記憶的問題。Ilya 在近期一次采訪中回憶,在論文出現第二天就立刻徹底轉向了架構。

而后,2020年5月基于架構的GPT-3論文發表,2年后出現。之后的一切都是歷史。

“從注意力到自注意力,從BERT到GPT-3,核心的思想都是當不再依賴輸出或待預測詞的下文等未來的信息時、當可以用更多的數據來更充分訓練AI模型時,我們看到了AGI的影子“。

弄潮的人會更早意識到新浪潮到來,在看到GPT3后,當時已經在京東擔任高級副總裁的周伯文給自己的職業生涯做了一個重要的決定:

創業。

2021年下半年,他向工作了4年的京東提出離職。他曾在這里一手搭建起京東的整個AI團隊,領導了云與AI的整合和戰略刷新,把生成式人工智能用到千人千面的個性化商品營銷和爆款產品創新中,并收獲了亮眼的提升數據。2020-2021年生成式人工智能還是早期探索,很少有人愿意為此而重新出發,但他看到的未來讓他無法等待。

人生就是“ the dots”。周伯文喜歡喬布斯這個提法,而對他來說,把這些點連接起來的一刻到了。

銜遠科技的誕生

一個無限的符號。左邊是產品,右邊是消費者。

周伯文在2021年底的一天在一張A4紙上畫下了這個圖案,之后銜遠科技誕生。

Dots 。

這種基于生成式的交互智能就是成功背后的重要機制,但在還沒出現的當時很少有人懂。

離開大船,帶來的是巨大的沉沒風險,但他自己想的很清楚。

“終局思考加上對技術階段和成熟期的判斷,讓我在2021年決定干這件事情。”在銜遠科技位于中關村的辦公室,周伯文對我說。他的聲音有些沙啞,今年以來他每一天的行程以小時劃分,但精力依然充沛,提到技術的演進節點,不自覺會興奮地提高音量。

周沖與周萍的對話_17周做b超是男孩會翻盤嗎_人工智能chatGPT概念服

“展開來說,首先是技術驗證,一方面是GPT3這些模型明顯看出生成式的能力越來越強。另一方面是我自己早期的一系列技術和效果驗證。用生成式AI來做的內容和產品創新等比人類專家的轉化率提高30%。”

兩相結合,周伯文創辦銜遠科技要做的,就是用生成式人工智能去重構用戶和產品的關系。

“過去的模式雖然已有很多新AI技術的實踐,但數智化產業在追求單點,成千上萬個小的模型,解決一個個具體環節。我希望做一個基礎大模型,學習商品供應鏈各個環節,并以消費者為中心提升關鍵環節效率。”

但果不其然的,這個模式在一開始并沒太多人理解。周伯文又再次需要做一個判斷:這些技術思考和現實的商業模式之間的空隙人工智能chatGPT概念服,他是否又一次太超前了。

“超前是我的常態,但我當時判斷是,沒有太超前。”他對我說。“我總是說,技術的突破,核心是你的愿景是什么。”

周伯文的技術愿景顯然指向通用人工智能,而這一次生成式人工智能的進展,讓他更清晰看到通用人工智能的可能性,其中最關鍵的改變,就是人與人工智能的交互關系的變化。

“過往大家都把人機對話認為是一種應用。我為什么要去做交互呢?我不認為它是個應用,從人類歷史早期開始,從孔子與72門徒到雅典學派,人類知識的積累、沉淀、傳播,其實都是通過人和人的對話、交互實現的。AI時代類似,我認為人機對話是一個學習與對齊的手段,通過交互,人可以不斷地教AI,完成人和AI在復雜任務上的分工協同,并同時確保AI的目標和子目標都與人類對齊。”周伯文說。

在出現后,這種判斷成了一種共識。但在2022年初當他去清華大學提出想要做這個課題時,大家也感到新奇。周伯文離開京東后,受聘為清華大學電子工程系長聘教授、清華大學惠妍講席教授,并設立“協同交互智能研究中心” 。他同時擁有學界和創業者的雙重身份,希望通過這兩種身份圍繞學術與產業的協同更好的助推AI創新發展。

什么才是中國的

在中關村不大的會議室里,周伯文給我展示他2021年底最早設計銜遠科技的技術底座與商業模式時的幻燈片,網絡投屏延遲有些高,“我們的網絡資源都在訓練模型,”他半開玩笑地說。

這家公司正在按照他的愿景,穩步推進每一個技術細節,打造著模型和產品。

用生成式人工智能去重構用戶和產品的關系,周伯文最終將它們指向5D:發現,定義,設計,開發,轉化(,,,,)。周伯文在和客戶的溝通中發現,這5D基本涵蓋了品牌和制造商的所有需求。

這5D的任何地方不能只考慮用戶或者產品,而是需要把它們鏈接起來看,也就是需要彼此交互。這也是與以往的不同——5D并不新鮮,它們早已存在,過往周伯文也用技術走通過每一個D,但問題是在大模型之前,模型訓練和部署成本都很高。更重要的是,它們是彼此分割的,哪怕是曾經火熱一時,試圖解決這一問題的數據中臺概念也沒能改變這個事實。

“當我做了數據中臺后,發現這是一個偽命題人工智能chatGPT概念服,因為它是一個ad hoc(臨時安排)的東西,是事后定義的。所有人用不同軟件看到的數據還是不同,因為最終的入口不同。但銜遠科技的大模型做成后,所有企業使將使用5D大模型來實現數智化轉型,將其成為統一的入口。”他說。

“生成式人工智能讓5D第一次有可能用同一個AI基礎模型跑起來。而且能夠將5D的數據集中到一起并實現全部穿透,這類場景以前是不存在的。”

“在應用落地層面, 我們研發的領銜 SaaS基于大模型的多模態理解、推理與生成能力,通過深刻洞察消費者、場景、商品、品參、研發,協助企業發現商業機會與產品創新。 同時,銜遠科技的多輪對話平臺為企業每個員工提供根據不同職業角色深度定制的個人助手,通過提供角色特定的技能與知識滿足其特定的工作需求, 例如,銜遠科技的消費者研究個人助手會提供研究市場趨勢、理解消費者需求、市場調研等專業技能與相關知識。”

銜遠科技在今年3月1日已完成數億元天使輪融資,由啟明創投領投,經緯創投跟投。不過,在今天已經被一定程度上塑造的中國大模型商業語境里,這樣的模型思路似乎會被立刻歸類為“垂直模型”,人們認為它需要被建立在一個更強大的,全能的通用大模型之上,而后者才是“百模大戰”的焦點。

但周伯文并不這么認為。

“我以前沒用大模型這個詞,現在大家這樣理解,沒辦法(也要用起來),這樣有好處,就是簡潔。但它也會把很多東西混淆在一起。”

第一是技術上,他認為,一方面只強調大就會讓人們把GPT這種 和其他一些MOE(拼接模型,可以大很多)放一起比較,這樣并沒有意義。另一方面,目前模型的確需要足夠大才能涌現一些能力,但未來一定會有新的辦法,比如,未來訓練一定要提供現在還多的高質量、高智慧密度數據,但模型的表征架構不一定就必須要數量級的增長,如果是可能是我們的表征學習還不夠好;推理就更明顯,一定是越小越好。

“我一直認為,模型不是越大越好。我們說大模型其實關鍵是模型提供了預訓練能力,具備了基礎能力,后面怎么去用是另一個問題。”

第二在商業模式上,“大”其實對應的是ROI里I的部分,但事實上沒人要去比I,要比的是R人工智能chatGPT概念服,I是分母越小越好,R是分子越大越好。

以及大模型本身更適合做的是長尾場景,這些往往也是低價值場景。而一些數據上的變化也開始印證這個判斷。

“從上個月起,的API 調用量明顯下降,日活下降5%,而它之前突增之后也才到谷歌日活的2%。”他說。“人們不知道用它干什么,只當做是一個玩具或一個簡易工具。我的判斷是必須進入生產力環節,成為人們在生產生活中的剛需。”

所以在銜遠科技,大模型在技術底層框架上必須具備通用大模型技術的基礎能力,并用科學的方法評估,但同時也需要專業的訓練。

“人們都在用LLM來簡述做的事情,但實際自己的定義是——基于多頭注意力機制預測下一個詞訓練出來的最佳的世界知識壓縮器。”周伯文找到科學家的分享對我說。

也就是,一件產品誕生全過程的知識第一次可以用最佳方式壓縮進一個模型。把人和消費者所有交互的數據壓縮之后來預測下一個“詞”,并可以學會人的場景,情感,來預測產品的參數。

周伯文喜歡引用諾貝爾經濟學獎得主丹尼爾·卡尼曼提出的一個理論來解釋人工智能與人的關系:人們的思考方式有兩類,“系統1”基于直覺和經驗判斷,快速、不需要大量計算,“系統2”需要語言、算法、計算、邏輯。最初人們以為商業化的AI更適合做“系統1”的工作,比如人臉識別等。則證明了AI做非給定任務系統2的可行性。

而具體到銜遠科技,可以拿亞馬遜的貝索斯來比喻,他有天生的思維,有亞馬遜強大的團隊和數據分析能力,也就是強大的系統2,但不是所有商家都有這么強大的能力。但今天一個吃透了互動數據的模型可以讓這些能力平民化。

銜遠科技就是要幫助更多的企業家成為貝索斯。

據品玩了解,銜遠科技正在訓練的基礎模型會在具備通用能力的基礎上,更擅長理解人與商品,通過多輪對話方式為企業與消費者以生成式人工智能幫助從商品洞察、定位、設計、研發到營銷的創新。

周伯文設計的訓練方法,是用約三分之二的通用人工智能的問題,比如數學推理等,再加上三分之一完全圍繞著5D的知識來一起訓練。

周伯文認為,這是一個用全新技術驅動的全新挑戰,而并不是簡單地去追隨做“下一個”。

“因為在成功的一瞬間,就意味著任何在該領域跟隨的其他公司都不再有是的可能。”他說。

“是什么,是在沒有前人成功的例子上,靠自己對終局的判斷,一步步往前走,認為未來應該是這樣,而不是那樣。如果今天只是做跟隨,那就不是中國的。”

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。