工作代碼用chatgpt ChatGPT編程準(zhǔn)確率暴降13%！UIUC&南大新基準(zhǔn)讓AI代碼現(xiàn)原形了

2023-07-02 發(fā)布在 ChatGPT知識(shí)80

蕭簫發(fā)自凹非寺

量子位 | 公眾號(hào)

用寫代碼，已經(jīng)是不少程序員的常規(guī)操作了。

△“至少提速3~5倍”

但你有沒有想過，生成的代碼，有不少只是“看起來準(zhǔn)確”而已？

來自伊利諾伊大學(xué)香檳分校和南京大學(xué)的一項(xiàng)最新研究表明：

和GPT-4生成代碼的準(zhǔn)確率，比之前評(píng)估的至少要降低13%！

有網(wǎng)友感嘆，太多ML論文都在用一些有問題或有局限性的基準(zhǔn)來評(píng)估模型，來短暫地達(dá)到“SOTA”，結(jié)果換個(gè)測(cè)評(píng)方法就現(xiàn)出原形了。

還有網(wǎng)友表示，這也說明大模型生成的代碼仍然需要人工監(jiān)督，“AI寫代碼的黃金時(shí)間還沒到呢”。

所以，論文提出了一種怎樣的新測(cè)評(píng)方法？

給AI代碼考題加大難度

這個(gè)新方法名叫，是一個(gè)自動(dòng)化代碼評(píng)估框架。

具體來說，它會(huì)通過改進(jìn)現(xiàn)有評(píng)估數(shù)據(jù)集的輸入多樣性和問題描述準(zhǔn)確性，來將這些評(píng)估基準(zhǔn)變得更嚴(yán)格。

一方面是輸入多樣性。會(huì)先根據(jù)標(biāo)準(zhǔn)答案，用生成一些種子輸入樣例（雖然要測(cè)的編程能力，但用它生成種子輸入似乎也不矛盾doge）

隨后，用改進(jìn)這些種子輸入，將它們改得更難、更復(fù)雜、更刁鉆。

另一方面是問題描述準(zhǔn)確性。會(huì)將代碼需求描述改得更精確，在約束輸入條件的同時(shí)，補(bǔ)充自然語言問題描述，以提高對(duì)模型輸出的精確度要求。

這里，論文選擇了數(shù)據(jù)集作為示范。

是和 AI一起制作的代碼數(shù)據(jù)集，包含164個(gè)原創(chuàng)編程題，涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。

會(huì)通過改進(jìn)這類數(shù)據(jù)集的輸入類型和功能描述，讓編程問題看起來更清晰，同時(shí)用于測(cè)試的輸入更“刁鉆”或是更困難。

以其中的一道求并集編程題為例，要求AI寫一段代碼，找出兩個(gè)數(shù)據(jù)列表中的共同元素，并給這些元素排序。

用它來測(cè)測(cè)寫的代碼準(zhǔn)確度。

首先用幾個(gè)簡(jiǎn)單輸入進(jìn)行測(cè)試，發(fā)現(xiàn)能輸出正確答案。但如果換個(gè)輸入，就找出了版代碼的bug：

屬實(shí)是給AI們加大了考題難度。

基于這套方法，還做了一個(gè)改進(jìn)版+數(shù)據(jù)集，增加輸入的同時(shí)，修正了一些里面答案就有問題的編程題。

那么，在這套“新考題”下工作代碼用chatgpt，大語言模型們的準(zhǔn)確率實(shí)際上要打幾折？

LLM代碼準(zhǔn)確率平均降低15%

作者們測(cè)試了當(dāng)前比較受歡迎的10種代碼生成AI。

GPT-4、、、、、、GPT-J、GPT-NEO、、-α。

從表格中來看，經(jīng)過嚴(yán)格測(cè)試后，這群AI的生成準(zhǔn)確率都有所下降：

這里會(huì)通過一種名叫pass@k的方法評(píng)估準(zhǔn)確率，其中k是允許大模型給問題生成的程序數(shù)量，n是用于測(cè)試的輸入數(shù)量，c是正確的輸入數(shù)量：

根據(jù)新的這套評(píng)估標(biāo)準(zhǔn)，大模型們的準(zhǔn)確率平均下降了15%，其中比較廣泛研究的-16B更是下降了超過18%。

至于和GPT-4生成代碼的性能，也下降了至少13%。

不過，也有網(wǎng)友表示工作代碼用chatgpt，大模型生成的代碼效果沒那么好，已經(jīng)是“眾所周知的事實(shí)”了，需要研究的是“為什么大模型寫的代碼不能用”。

作者介紹

共同一作 Liu，伊利諾伊大學(xué)香檳分校二年級(jí)博士生，研究興趣是編程系統(tǒng)和深度學(xué)習(xí)。

共同一作 Xia，伊利諾伊大學(xué)香檳分校二年級(jí)博士生工作代碼用chatgpt，本科畢業(yè)于多倫多大學(xué)，研究興趣是機(jī)器學(xué)習(xí)和軟件工程的交叉領(lǐng)域。

王宇峣（ Wang），南京大學(xué)計(jì)算機(jī)科學(xué)大三學(xué)生，研究興趣是計(jì)算機(jī)系統(tǒng)的準(zhǔn)確性、可編程性和性能。

，伊利諾伊大學(xué)香檳分校副教授，研究方向是軟件工程及其與機(jī)器學(xué)習(xí)、編程語言和形式化方法（）的協(xié)同作用。

論文地址：

代碼地址：

— 完 —

量子位 · 頭條號(hào)簽約

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表本站的觀點(diǎn)和立場(chǎng)和對(duì)其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載，請(qǐng)聯(lián)系原作者。如果來源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布，來信即刪。

聲明：本站所有文章資源內(nèi)容，如無特殊說明或標(biāo)注，均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益，可聯(lián)系本站刪除。

工作代碼用chatgpt 工作代碼用chatgpt ChatGPT編程準(zhǔn)確率暴降13%！UIUC&南大新基準(zhǔn)讓AI代碼現(xiàn)原形了

工作代碼用chatgpt ChatGPT編程準(zhǔn)確率暴降13%！UIUC&南大新基準(zhǔn)讓AI代碼現(xiàn)原形了

相關(guān)文章

熱門

推薦

隨機(jī)

標(biāo)簽

工作代碼用chatgpt ChatGPT編程準(zhǔn)確率暴降13%！UIUC&南大新基準(zhǔn)讓AI代碼現(xiàn)原形了

相關(guān)文章

熱門

推薦

隨機(jī)

標(biāo)簽

微信掃一掃打賞