【AI繪畫 | draft意間】國產dr
寫在前面:
學習人工智能?來我們的床長人工智能教程網站!全面的課程,適合任何想學習的人。基礎知識到高級應用,我們都有。職場人士、學生或愛好者,都能快速提升技能水平。趕快來嘗試吧!
個人名片:
作者簡介:一名大二在校生,喜歡編程
???個人主頁:小新愛學習.
個人:
?系列專欄:?
每日一句:我很忙,但我要忙的有意義!
文章目錄
標題
Ai繪畫最近可謂是火到不行,它的出現讓很多人感嘆道時代真的變了。無數高質量的畫作隨著Ai繪畫的出現而出現,讓毫無畫畫基礎的人也能成為繪畫大師,只需要輸入一個或幾個關鍵詞就能生成畫作,這無疑是一件“顛覆”的事情。
就比如最近在朋友圈,抖音、快手等短視頻平臺上刷到一些奇特的圖畫,這些圖畫絕大部分都不是人工繪畫完成的,而是通過ai完成的,只需要輸入一些清晰易懂的文字tag,即可在很短的時間內得到一張同樣效果不錯的畫面。這就是現在非常火的ai繪畫。那么ai繪畫究竟是什么呢?
所謂AI繪畫就是“人工智能繪畫”。簡單來說,就是機器人畫畫,然而要讓機器人工作,就得需要指令,用ai繪畫,我們的指令就是關鍵詞,相較于過去無論是傳統手繪還是CG繪畫,創作者都需要花一定的時間才能完成一張作品,但在今年引爆繪畫行業的AI繪畫軟件,一個關鍵詞可以生成無數張內容不一的畫面!
AI 繪畫——意間
意間傳送門
那么該如何使用AI繪畫呢? 1.首先瀏覽器搜索.art,進入意間官網
2. 可以在社區選擇自己喜歡的模板,也可以直接選擇繪圖
3. 各個板塊使用介紹,讓你如魚得水
原圖:(我家寶貝,禁止盜圖!!!)
根據關鍵詞,AI繪制后:
得出結論,這AI真拉,哈哈哈,開玩笑的。
國產AI繪畫——有什么優勢特點呢?
移動端/pc端輸入網址.art即可使用,操作簡單,無需下載,最重要的是免費
速度飛快,十秒內出圖,免費下載
社區內海量瀑布流素材模板,各類詞庫隨意選擇,提供無限靈感創意
中英文都支持,輸入關鍵字,隨心創作,你就是“梵高”
AI 繪畫的實現原理!!!技術解讀
AI繪畫的算法精髓還是比較復雜的。不過簡而言之所謂的AI繪畫,是指利用電腦運行,使用AI(人工智能)算法來自主生成的繪畫方式。具體的繪畫是通過AI算法經過大量真實存在的畫師作品中,進行歸納和學習來完成創作。
技術解讀
看到歷史和一些生動的例子,是不是覺得AI生成各種內容已經就在眼前了?我們可以隨便寫幾句話就能生成精美的圖片、視頻、聲音滿足各種需求了?但是實際操作上依然會有很多的限制。下面我們就來適當剖析一下最近較熱的文本生成圖片和視頻技術原理,到底實現了什么功能以及相關的局限性在哪里,后面我們再針對實際游戲內容做一些demo,更貼合應用場景的了解這些局限性。
(一)Text-to-技術
不同的AI圖片生成器技術結構上會有差別,本文在最后也附上了一些重要模型的參考文獻。我們在這里主要針對最近熱門的 和DALL-E 2做一些解讀和討論。這類的AI生成模型的核心技術能力就是,把人類創作的內容,用某一個高維的數學向量進行表示。如果這種內容到向量的“翻譯”足夠合理且能代表內容的特征,那么人類所有的創作內容都可以轉化為這個空間里的向量。當把這個世界上所有的內容都轉化為向量,而在這個空間中還無法表示出來的向量就是還沒有創造出來的內容。而我們已經知道了這些已知內容的向量,那我們就可以通過反向轉化,用AI“創造”出還沒有被創造的內容。
的整體上來說主要是三個部分, 、 和。
主要將輸入的文本提示轉化為可以輸入到 使用的表示形式,通常使用加上一些 輸入到下一層。
主要是一個時間條件U-Net,它將一些高斯噪聲和文本表示作為模型輸入,將對應的圖像添加一點高斯噪聲,從而得到一個稍微有噪點的圖像,然后在時間線上重復這個過程,對于稍微有噪點的圖像,繼續添加高斯噪聲,以獲得更有噪點的圖像,重復多次到幾百次后就可以獲得完全嘈雜的圖像。這么做的過程中,知道每個步驟的圖像版本。然后訓練的NN就可以將噪聲較大的示例作為輸入,具有預測圖像去噪版本的能力。
在訓練過程中,還有一個,是的對應部分,的目標是將輸入圖像轉化為具有高語義意義的縮減采樣表示,但消除與手頭圖像不太相關的高頻視覺噪聲。這里的做法是將與的訓練分開。這樣,可以訓練獲得最佳圖像表示,然后在下游訓練幾個擴散模型,這樣就可以在像素空間的訓練上比原始圖像計算少64倍,因為訓練模型的訓練和推理是計算最貴的部分。
的主要作用就是對應的部分,獲得擴散模型的輸出并將其放大到完整圖像。比如擴散模型在 px上訓練,解碼器將其提高到 px。
DALL-E 2
DALL-E 2其實是三個子模塊拼接而成的,具體來說:
在本篇文章開始前,希望你可以了解go的一些基本的內存知識,不需要太深入,簡單總結了如下幾點:
從上面的模型拆解中可以看出,DALL-E 2和 的text 都是基于提出的CLIP,圖像的生成都是基于 。其中,CLIP是學習任意給定的圖像和標題()之間的相關程度。其原理是計算圖像和標題各自之后的高維數學向量的余弦相似度( )。
(二)Text-to-技術
文本生成視頻大概從2017年就開始有一些研究了,但一直都有很多限制。而從今年10月初Meta宣布了他們的產品Make-A-以及宣布了 。這兩款都是創新了Text-to-的技術場景。而這兩款最新產品都是從他們的Text-to-產品衍生而言的,所以技術實現方式也是基于Text-to-的技術演變而成。
本質上來說我們可以認為靜態圖片就是只有一幀的視頻。生成視頻需要考慮圖片中的元素在時間線上的變化,所以比生成照片會難很多,除了根據文本信息生成合理和正確的圖片像素外,還必須推理圖片像素對應的信息如何隨時間變化。這里我們主要根據Make-A-的研究論文做一下拆解。
Meta’s Make-A-
Make-A-正是建立在text-to-技術最新進展的基礎上,使用的是一種通過時空分解的 將基于Text-to-的模型擴展到Text-to-的方法。原理很直接:
訓練數據是23億文本-圖像數據( et al),以及千萬級別的視頻數據(-10M and HD-VILA-100M)。
整體上來說Make-A-也是有三個重要組成部分,所有的組成部分都是分開訓練:
基于文本圖像pair訓練的基本的Text-to-的模型,總共會用到三個網絡:
兩個空間的高分辨率網絡:生成和的圖片。
時空卷積層和注意層,將基于第一部分的網絡擴展到時間維度
在模型初始化階段擴展包含了時間維度,而擴展后包括了新的注意層,可以從視頻數據中學習信息的時間變化
是通過未標注的視頻數據進行fine-tune,一般從視頻中抽取16幀。所以加上時間維度的可以生成16幀的圖片
以及用于高幀速率生成的插幀網絡
空間的超分辨率模型以及插幀模型,提高的高幀速率和分辨率,讓視覺質量看起來更好。
舉例:
(一)文本生成圖像
文本描述生成的結果會有一些隨機性,生成的圖片大概率是很難完全按照“需求”生成,更多帶來的是“驚喜”,這種驚喜在一定的層面上代表的也是一種藝術風格。所以在實際的使用中并不是很適用于按照嚴格要求生產圖片的任務,而更多的適用于有一定的描述,能夠給藝術創意帶來一些靈感的迸發和參考。
文本的準確描述對于生成的圖片樣子是極其重要的,技術本身對文本描述和措辭有較高要求,需對腦海中的核心創意細節有較為準確的描述。
莊周
經過關鍵字輸入: of a boy in , with hair, and , lost in a , , , 8k, , , , , on
(二)圖像融合和變換
圖像本身的融合變換在早幾年的時候就已經有了一些研究和探索,且有了相對較為成熟的生成的樣子,這里我們使用和平精英的素材嘗試做一種變換風格的樣子。
和平精英素材原圖和星空:
更加深度的將星空的顏色和變化融合到原始圖片中:
詳情資料請查看
AI技術原理——原文:AI繪畫火了!一文看懂背后技術原理
參考資料:
[1907.] by of the Data
[2105.] Beat GANs on
歡迎添加微信,加入我的核心小隊,請備注來意
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。