蕭簫 發(fā)自 凹非寺

量子位 | 公眾號

用寫代碼,已經(jīng)是不少程序員的常規(guī)操作了。

工作代碼用chatgpt_南大傲拓plc編程說明_降息是不是降基準(zhǔn)利率

△“至少提速3~5倍”

但你有沒有想過,生成的代碼,有不少只是“看起來準(zhǔn)確”而已?

來自伊利諾伊大學(xué)香檳分校和南京大學(xué)的一項(xiàng)最新研究表明:

和GPT-4生成代碼的準(zhǔn)確率,比之前評估的至少要降低13%!

工作代碼用chatgpt_降息是不是降基準(zhǔn)利率_南大傲拓plc編程說明

有網(wǎng)友感嘆,太多ML論文都在用一些有問題或有局限性的基準(zhǔn)來評估模型,來短暫地達(dá)到“SOTA”,結(jié)果換個(gè)測評方法就現(xiàn)出原形了。

工作代碼用chatgpt_南大傲拓plc編程說明_降息是不是降基準(zhǔn)利率

還有網(wǎng)友表示,這也說明大模型生成的代碼仍然需要人工監(jiān)督,“AI寫代碼的黃金時(shí)間還沒到呢”。

降息是不是降基準(zhǔn)利率_南大傲拓plc編程說明_工作代碼用chatgpt

所以,論文提出了一種怎樣的新測評方法?

給AI代碼考題加大難度

這個(gè)新方法名叫,是一個(gè)自動(dòng)化代碼評估框架。

具體來說,它會(huì)通過改進(jìn)現(xiàn)有評估數(shù)據(jù)集的輸入多樣性和問題描述準(zhǔn)確性,來將這些評估基準(zhǔn)變得更嚴(yán)格。

一方面是輸入多樣性。會(huì)先根據(jù)標(biāo)準(zhǔn)答案,用生成一些種子輸入樣例(雖然要測的編程能力,但用它生成種子輸入似乎也不矛盾doge)

隨后,用改進(jìn)這些種子輸入,將它們改得更難、更復(fù)雜、更刁鉆。

另一方面是問題描述準(zhǔn)確性。會(huì)將代碼需求描述改得更精確,在約束輸入條件的同時(shí),補(bǔ)充自然語言問題描述,以提高對模型輸出的精確度要求。

工作代碼用chatgpt_南大傲拓plc編程說明_降息是不是降基準(zhǔn)利率

這里,論文選擇了數(shù)據(jù)集作為示范。

是和 AI一起制作的代碼數(shù)據(jù)集,包含164個(gè)原創(chuàng)編程題,涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。

會(huì)通過改進(jìn)這類數(shù)據(jù)集的輸入類型和功能描述,讓編程問題看起來更清晰,同時(shí)用于測試的輸入更“刁鉆”或是更困難。

以其中的一道求并集編程題為例,要求AI寫一段代碼,找出兩個(gè)數(shù)據(jù)列表中的共同元素,并給這些元素排序。

用它來測測寫的代碼準(zhǔn)確度。

首先用幾個(gè)簡單輸入進(jìn)行測試,發(fā)現(xiàn)能輸出正確答案。但如果換個(gè)輸入,就找出了版代碼的bug:

工作代碼用chatgpt_降息是不是降基準(zhǔn)利率_南大傲拓plc編程說明

屬實(shí)是給AI們加大了考題難度。

工作代碼用chatgpt_南大傲拓plc編程說明_降息是不是降基準(zhǔn)利率

基于這套方法,還做了一個(gè)改進(jìn)版+數(shù)據(jù)集,增加輸入的同時(shí),修正了一些里面答案就有問題的編程題。

降息是不是降基準(zhǔn)利率_工作代碼用chatgpt_南大傲拓plc編程說明

那么,在這套“新考題”下工作代碼用chatgpt,大語言模型們的準(zhǔn)確率實(shí)際上要打幾折?

LLM代碼準(zhǔn)確率平均降低15%

作者們測試了當(dāng)前比較受歡迎的10種代碼生成AI。

GPT-4、、、、、、GPT-J、GPT-NEO、、-α。

從表格中來看,經(jīng)過嚴(yán)格測試后,這群AI的生成準(zhǔn)確率都有所下降:

降息是不是降基準(zhǔn)利率_工作代碼用chatgpt_南大傲拓plc編程說明

這里會(huì)通過一種名叫pass@k的方法評估準(zhǔn)確率,其中k是允許大模型給問題生成的程序數(shù)量,n是用于測試的輸入數(shù)量,c是正確的輸入數(shù)量:

降息是不是降基準(zhǔn)利率_南大傲拓plc編程說明_工作代碼用chatgpt

根據(jù)新的這套評估標(biāo)準(zhǔn),大模型們的準(zhǔn)確率平均下降了15%,其中比較廣泛研究的-16B更是下降了超過18%。

至于和GPT-4生成代碼的性能,也下降了至少13%。

不過,也有網(wǎng)友表示工作代碼用chatgpt,大模型生成的代碼效果沒那么好,已經(jīng)是“眾所周知的事實(shí)”了,需要研究的是“為什么大模型寫的代碼不能用”。

工作代碼用chatgpt_降息是不是降基準(zhǔn)利率_南大傲拓plc編程說明

作者介紹

共同一作 Liu,伊利諾伊大學(xué)香檳分校二年級博士生,研究興趣是編程系統(tǒng)和深度學(xué)習(xí)。

共同一作 Xia,伊利諾伊大學(xué)香檳分校二年級博士生工作代碼用chatgpt,本科畢業(yè)于多倫多大學(xué),研究興趣是機(jī)器學(xué)習(xí)和軟件工程的交叉領(lǐng)域。

王宇峣( Wang),南京大學(xué)計(jì)算機(jī)科學(xué)大三學(xué)生,研究興趣是計(jì)算機(jī)系統(tǒng)的準(zhǔn)確性、可編程性和性能。

,伊利諾伊大學(xué)香檳分校副教授,研究方向是軟件工程及其與機(jī)器學(xué)習(xí)、編程語言和形式化方法( )的協(xié)同作用。

論文地址:

代碼地址:

— 完 —

量子位 · 頭條號簽約

免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場和對其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請聯(lián)系原作者。如果來源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。