工作代碼用chatgpt ChatGPT編程準(zhǔn)確率暴降13%!UIUC&南大新基準(zhǔn)讓AI代碼現(xiàn)原形了
蕭簫 發(fā)自 凹非寺
量子位 | 公眾號
用寫代碼,已經(jīng)是不少程序員的常規(guī)操作了。
△“至少提速3~5倍”
但你有沒有想過,生成的代碼,有不少只是“看起來準(zhǔn)確”而已?
來自伊利諾伊大學(xué)香檳分校和南京大學(xué)的一項(xiàng)最新研究表明:
和GPT-4生成代碼的準(zhǔn)確率,比之前評估的至少要降低13%!
有網(wǎng)友感嘆,太多ML論文都在用一些有問題或有局限性的基準(zhǔn)來評估模型,來短暫地達(dá)到“SOTA”,結(jié)果換個(gè)測評方法就現(xiàn)出原形了。
還有網(wǎng)友表示,這也說明大模型生成的代碼仍然需要人工監(jiān)督,“AI寫代碼的黃金時(shí)間還沒到呢”。
所以,論文提出了一種怎樣的新測評方法?
給AI代碼考題加大難度
這個(gè)新方法名叫,是一個(gè)自動(dòng)化代碼評估框架。
具體來說,它會(huì)通過改進(jìn)現(xiàn)有評估數(shù)據(jù)集的輸入多樣性和問題描述準(zhǔn)確性,來將這些評估基準(zhǔn)變得更嚴(yán)格。
一方面是輸入多樣性。會(huì)先根據(jù)標(biāo)準(zhǔn)答案,用生成一些種子輸入樣例(雖然要測的編程能力,但用它生成種子輸入似乎也不矛盾doge)
隨后,用改進(jìn)這些種子輸入,將它們改得更難、更復(fù)雜、更刁鉆。
另一方面是問題描述準(zhǔn)確性。會(huì)將代碼需求描述改得更精確,在約束輸入條件的同時(shí),補(bǔ)充自然語言問題描述,以提高對模型輸出的精確度要求。
這里,論文選擇了數(shù)據(jù)集作為示范。
是和 AI一起制作的代碼數(shù)據(jù)集,包含164個(gè)原創(chuàng)編程題,涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。
會(huì)通過改進(jìn)這類數(shù)據(jù)集的輸入類型和功能描述,讓編程問題看起來更清晰,同時(shí)用于測試的輸入更“刁鉆”或是更困難。
以其中的一道求并集編程題為例,要求AI寫一段代碼,找出兩個(gè)數(shù)據(jù)列表中的共同元素,并給這些元素排序。
用它來測測寫的代碼準(zhǔn)確度。
首先用幾個(gè)簡單輸入進(jìn)行測試,發(fā)現(xiàn)能輸出正確答案。但如果換個(gè)輸入,就找出了版代碼的bug:
屬實(shí)是給AI們加大了考題難度。
基于這套方法,還做了一個(gè)改進(jìn)版+數(shù)據(jù)集,增加輸入的同時(shí),修正了一些里面答案就有問題的編程題。
那么,在這套“新考題”下工作代碼用chatgpt,大語言模型們的準(zhǔn)確率實(shí)際上要打幾折?
LLM代碼準(zhǔn)確率平均降低15%
作者們測試了當(dāng)前比較受歡迎的10種代碼生成AI。
GPT-4、、、、、、GPT-J、GPT-NEO、、-α。
從表格中來看,經(jīng)過嚴(yán)格測試后,這群AI的生成準(zhǔn)確率都有所下降:
這里會(huì)通過一種名叫pass@k的方法評估準(zhǔn)確率,其中k是允許大模型給問題生成的程序數(shù)量,n是用于測試的輸入數(shù)量,c是正確的輸入數(shù)量:
根據(jù)新的這套評估標(biāo)準(zhǔn),大模型們的準(zhǔn)確率平均下降了15%,其中比較廣泛研究的-16B更是下降了超過18%。
至于和GPT-4生成代碼的性能,也下降了至少13%。
不過,也有網(wǎng)友表示工作代碼用chatgpt,大模型生成的代碼效果沒那么好,已經(jīng)是“眾所周知的事實(shí)”了,需要研究的是“為什么大模型寫的代碼不能用”。
作者介紹
共同一作 Liu,伊利諾伊大學(xué)香檳分校二年級博士生,研究興趣是編程系統(tǒng)和深度學(xué)習(xí)。
共同一作 Xia,伊利諾伊大學(xué)香檳分校二年級博士生工作代碼用chatgpt,本科畢業(yè)于多倫多大學(xué),研究興趣是機(jī)器學(xué)習(xí)和軟件工程的交叉領(lǐng)域。
王宇峣( Wang),南京大學(xué)計(jì)算機(jī)科學(xué)大三學(xué)生,研究興趣是計(jì)算機(jī)系統(tǒng)的準(zhǔn)確性、可編程性和性能。
,伊利諾伊大學(xué)香檳分校副教授,研究方向是軟件工程及其與機(jī)器學(xué)習(xí)、編程語言和形式化方法( )的協(xié)同作用。
論文地址:
代碼地址:
— 完 —
量子位 · 頭條號簽約
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場和對其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請聯(lián)系原作者。如果來源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。
聲明:本站所有文章資源內(nèi)容,如無特殊說明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。