AIGC時代,人人都可以使用、 等AI產品生成高質量圖片,其逼真程度肉眼難以區分真假。這種虛假照片有時會對社會產生不良影響,例如,生成公眾人物不雅圖片用于散播謠言;合成虛假圖片用于金融欺詐,造成信任危機等。

因此,華為諾亞方舟實驗室開源了百萬量級的數據集,幫助企業、開發者快速構建區分AI生成的圖像和真實圖像的檢測器和評估工具,致力于構建AIGC時代的。

開源地址:

論文:

項目主頁:

主要優點

1)大量圖像,包括超過一百萬對 AI 生成的假圖像和收集的真實圖像。

2)豐富的圖像內容,涵蓋廣泛的1000類圖像。

3) 最先進的生成器,、 、ADM、、、VQDM等,利用先進的擴散模型和 GAN 合成圖像。

上述優點使得在 上訓練的檢測器能夠經過全面的評估,并表現出對不同圖像的強大適用性。

華為團隊對數據集進行了全面分析,并提出了兩個任務來評估類似于真實場景的檢測方法。交叉生成器:檢測器在一種生成器生成的數據上訓練,在其他生成器生成的數據上驗證。這個任務目的是考察檢測器在不同生成器上的泛化能力。

退化圖像識別:檢測器需要對于低分辨率,模糊和壓縮圖像進行識別。這個任務主要考察檢測器在真實條件(如互聯網上傳播)中面對低質量圖像時的泛化問題。

數據集介紹

過去開源界也推出了一些數據集,主要有三個特點。第一數據規模小,第二都是基于GAN的,第三是局限于人臉數據。隨著時間推移,數據規模慢慢地在增加,生成器也從GAN時代過渡到時代,數據的范圍也在增加。

但是一個大規模以模型為主,涵蓋各類通用圖像的數據集仍然是缺失的。

基于此,華為團隊提出一個對標的數據集。真實的圖片采用了。

虛假的圖片采用的標簽進行生成。華為團隊利用了八個先進的生成器來生成,分別是,

V1.4, V1.5, ADM, , ,VQDM和。

這些生成器生成的圖片總數基本與真實圖片一致。每個生成器生成的圖片數量也基本一致。每一類生成的圖片數量基本一致。

實驗結果

華為團隊做了一些實驗來考察這個數據集。他們發現在某個生成器上訓練的-50模型在其他的測試準確率會明顯降低。

然而在真實情況下華為團隊難以得知遇到的圖像的生成器是什么。因此檢測器對于不同生成器生成圖片的泛化能力很重要。

華為團隊對比了現有方法在 V1.4上訓練,然后在各種生成器上測試的結果,也評測了各種生成器上訓練,然后在各種生成器上測試的結果。

那一列中的每一個數據點,都是在八個生成器上訓練,然后在一個生成器上測試得到的平均結果。然后華為團隊將這些測試集上的結果平均,得到最右側的平均結果。

華為團隊對測試集進行退化處理,采用不同參數下的低分辨率,JPEG壓縮和高斯模糊,評測結果如下

那么采集這么多數據是不是有用呢?華為團隊做了相關實驗,證明通過提升數據類比和每類的圖片數量是可以提高性能。

針對數據集對于不同圖片的泛化能力,華為團隊發現他對于人臉和藝術類圖片也能達到很好的效果。

未來展望

隨著AI生成圖片能力的不斷提升,對于AI生成的圖片實現有效檢測的需求將會越來越迫切。本數據集致力于為真實環境下的生成圖片檢測提供有效訓練數據。

華為團隊使用-50在本數據集中訓練,然后在真實推文中進行檢測。如下圖,-50能夠有效識別真圖和假圖。

這個結果證明了可以用于訓練模型以判別真實世界的虛假信息。華為團隊認為,該領域未來值得努力的方向是不斷提升檢測器在數據集上的準確率,并進而提升其在真實世界面對虛假信息的能力。

真實圖片

AI生成虛假圖片