共享經濟正處于如火如荼的發展狀態,但你有沒有想到,人工智能有一天也會步入共享經濟時代?今年秋天,微軟研究人員對外公開了新一組可用來測試AI系統的數據集,以助力全世界的AI研究。協作精神對人工智能領域的長足發展至關重要,許多正在開發數據集的團隊表示,從某種意義上說,他們是在“預先付費”chatgpt數據集,因為他們將來也會用到其他人所創建的數據集。

微軟研究院團隊的研究員 等人在研究如何利用人工智能理解柱線圖和餅圖中所包含的信息這一問題時遇到了一個難題:沒有現成的數據集可以用來測試他們的假設。為了解決這一問題,他們自己創建了數據集,并在今年秋天對外公布。

數據集的AI專家團隊成員:(從左至右,微軟研究院團隊研究員、蒙特利爾大學教授 、微軟研究院團隊研究員 )

這個數據集只是近年來微軟研究人員和工程師用來測試AI系統的眾多數據集、度量指標和工具之一。目前,這些工具向全世界的研究人員開放,可以被用于測試各自的AI系統在例如實時語音翻譯、輸入詞匯預測等任務中的表現。微軟開發這些工具的團隊認為,這些開放工具可以幫助學術研究人員和行業專家測試各自系統、比較研究成果以及相互學習。

微軟必應搜索部門合作伙伴項目經理 說:“這些公開數據集使我們的目標變得更加清晰。這樣其他研究人員就很容易看清楚我們的技術發展方向。”帶領的團隊負責MS 機器讀閱讀理解數據集的開發工作,他們即將在年底再次更新這個誕生剛剛一年的數據集。

微軟必應搜索部門合作伙伴項目經理

對于習慣傳統科技行業行事風格的人來說chatgpt數據集,這種信息共享似乎無法理解。但是,在人工智能領域,這種開放性正在變得越來越普遍。位于蒙特利爾的微軟研究院團隊項目經理 表示:“傳統上,企業的研究工作是秘不示人的。但是現在,共享的風潮正席卷整個行業——幾乎所有企業都在發表論文,試圖引領科技前沿的發展。”去年,微軟研究院團隊還發布了另外兩個數據集:和。

不少人工智能專家認為,協作精神對人工智能領域的長足發展至關重要,許多人工智能領域的早期突破都源于此。甚至身處有競爭關系的不同機構內的研究人員都可以共享彼此的研究成果。

微軟翻譯團隊高級項目經理 表示:“我們不可能想到世界上所有的好點子,所以如果別人有個好點子并想嘗試一下,我們可以給他們提供一個數據集來試一試。”

的團隊開發了微軟語音翻譯語料庫( ),并在最近在語料庫中加入了更多語言。目前,所有人都可以利用這個語料庫測試他們自己的類似于的實時翻譯以及 的語音翻譯系統。表示chatgpt數據集,微軟公司是少數幾個擁有雄厚預算和資源的大公司之一,可以創建高質量的工具和數據集,讓業界同行得以比較各自的研究成果。

研究人員需要創造一些標桿()來展示自己的研究成果,而這些公開的數據集恰恰是上述標桿的關鍵。例如,語音識別研究領域新近的幾項里程碑式的成就正是基于語料庫的訓練結果。

預付費模式

許多正在開發數據集和度量指標的團隊表示,從某種意義上說,他們是在“預先付費”,因為他們將來也會用到其他人所創建的數據集。

說,當還是一個小型創業公司時,他們的研究非常依賴名為的微軟數據集。現在,已成為微軟的一部分,他們很高興看到自己所創建的數據集正在被業內其他人所使用。

喬治亞理工學院助理教授、人工智能研究院的研究員Devi 表示,最近發布的數據集很有幫助,在這個數據集的幫助下,像她這樣的研究人員就可以研究需要多種人工智能技術才能解決的問題。例如,計算機要能準確閱讀圖形并回答有關問題,就需要同時運用計算機視覺和自然語言處理。她說:“從研究的角度來看,研究人工智能各分領域之間的交叉問題變得越來越有趣。”

盡管大家都看到了信息共享的價值,但AI領域的研究人員和工程師有時候也希望既能夠比較他們的系統,也不必公開所有所用數據。

在微軟去年收購的公司,高級軟件工程主管表示,他所在的團隊希望創建一種標準方法,用于衡量某個輸入法在詞匯預測(預測用戶即將輸入的詞匯)方面的表現。詞匯預測是輸入法的一個關鍵組件,它能夠根據個人的表達風格提供個性化的詞匯預測。團隊并沒有共享某個具體的數據集,而是創建了一套可供研究人員應用于任何數據集的衡量標準—— 。用戶可通過下載到這套標準,它讓研究人員有了一個標準化的尺度,用于衡量自身的改進并將結果與其他同行進行比較,而又無須共享專有數據。

Orr表示,這些衡量標準讓公司的內部團隊受益匪淺,因為他們能更了解自己的輸入法,能夠看到輸入法改進的幅度,同時,該領域的每一個參與者也能更清晰地了解彼此的表現。

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。