每日經(jīng)濟新聞 2025-03-14 21:01:05
3月12日,谷歌正式發(fā)布支持原生圖像生成功能的Gemini 2.0 Flash全模態(tài)圖像生成器?!睹咳战?jīng)濟新聞》記者對其進行實測后發(fā)現(xiàn),該模型在給漫畫上色、生成圖文菜譜、添加元素等任務上表現(xiàn)出色,雖在運行中出現(xiàn)一些狀況,但整體表現(xiàn)可圈可點,為圖像生成技術的應用拓展了邊界。
每經(jīng)記者 宋欣悅 每經(jīng)編輯 蘭素英
3月12日,谷歌正式發(fā)布Gemini 2.0 Flash全模態(tài)圖像生成器,支持原生圖像生成功能。現(xiàn)在,所有開發(fā)者都可以通過Gemini API和Google AI Studio中的實驗版本使用Gemini 2.0 Flash進行原生圖像生成。
《每日經(jīng)濟新聞》記者(以下簡稱“每經(jīng)記者”)在Gemini 2.0 Flash原生圖像生成功能開放后進行了測試。測試發(fā)現(xiàn),Gemini 2.0 Flash在給漫畫上色、生成圖文菜譜、添加元素等多項任務上,均表現(xiàn)出色。
圖片來源:谷歌官網(wǎng)
據(jù)谷歌介紹,Gemini 2.0 Flash具有出色的文本和圖像結合能力。它能夠根據(jù)文本描述生成連貫的故事,并自動匹配相應的插圖,在整個故事中保持角色和場景的高度一致性。而且,用戶如果對生成的內(nèi)容不滿意,只需給予反饋,模型便會重新講述故事或改變繪畫風格,為創(chuàng)作者提供了極大的便利和創(chuàng)作空間。
此外,其會話式圖像編輯功能也十分強大,做到了“嘮嗑式P圖”。無論是調(diào)整細節(jié)還是探索不同的創(chuàng)意方向,用戶都可以通過多次自然語言對話,輕松地對圖像進行編輯。
在世界理解方面,Gemini 2.0 Flash與傳統(tǒng)模型相比,具有明顯優(yōu)勢。Gemini 2.0 Flash利用豐富的世界知識和增強的推理能力來生成圖像,能夠更好地理解現(xiàn)實世界中的各種概念和關系,從而生成更加逼真、詳細且符合上下文的圖像。例如,在生成食譜相關圖像時,它可以準確地描繪出真實的食材和烹飪方法,同時在Google AI Studio中實現(xiàn)文本和圖像的交錯輸出,讓用戶獲得更直觀的體驗。
值得一提的是,Gemini 2.0 Flash在文本渲染上表現(xiàn)卓越。大多數(shù)傳統(tǒng)圖像生成模型在處理長段文本時,容易出現(xiàn)格式不佳、字符難以辨認或錯別字等問題,而Gemini 2.0 Flash的內(nèi)部基準測試顯示,其在渲染方面優(yōu)于競爭對手的領先模型,這使其在創(chuàng)建廣告、社交媒體帖子和邀請函等需要高質(zhì)量文本圖像的場景中具有巨大的優(yōu)勢。
OpenAI前研究科學家威廉·古斯(William H.Guss)在社交媒體上感嘆道,“谷歌實力回歸了。”
圖片來源:X
在Gemini 2.0 Flash原生圖像生成功能開放后,每經(jīng)記者通過生成圖文菜譜、制作生日賀卡、給漫畫上色等多項任務,對該功能進行了測試。
任務1:添加或去掉元素
首先,記者發(fā)送了OpenAI首席執(zhí)行官山姆·奧爾特曼出席活動的一張照片,希望Gemini 2.0 Flash去掉圖片中的部分元素——頭發(fā)。
經(jīng)過五分鐘的等待,Gemini 2.0 Flash完成了記者提出的需求。雖耗時較長,但令人驚喜的是,處理前后的兩張圖片保持了高度一致性。不管是人物神態(tài)及五官、虛化的背景墻,還是圖像生成模型很難避開的“坑”——人物手部細節(jié),Gemini 2.0 Flash都處理得相當完美。
然而,Gemini 2.0 Flash在運行過程中也出現(xiàn)了一些狀況。當記者在同一對話頁面繼續(xù)與模型交互,提出“去掉黃仁勛眼鏡”的指令時,Gemini 2.0 Flash給出的回應并非如預期那樣。其回傳的圖片中,主體變成了剛剛生成過的奧爾特曼形象,同時還融入了記者發(fā)送的黃仁勛圖片中的英偉達芯片元素。
隨后,記者又向Gemini 2.0 Flash發(fā)送了一張電車的圖片,并提出在車頂上添加“TAXI”標志的指令。經(jīng)Gemini 2.0 Flash處理后回傳的圖片,“TAXI”標志與電車整體融合度極高,幾乎難以察覺到后期添加的痕跡。
不過,記者也留意到,圖片中車牌上的文字變得模糊難辨,除此之外,該圖片在其他方面的表現(xiàn)堪稱出色,很難找出明顯瑕疵。
任務2:上色、改色
在上一項的測試任務中,Gemini 2.0 Flash展現(xiàn)出的一致性表現(xiàn)著實令人驚艷。那么,面對線條復雜、圖片中還夾雜著對話的漫畫場景,Gemini 2.0 Flash能否延續(xù)其出色發(fā)揮?
記者隨后發(fā)送了一張黑白漫畫,并要求模型為該圖片上色,且色彩風格需契合漫威的風格。
待Gemini 2.0 Flash完成處理后,記者將前后圖片進行比對,發(fā)現(xiàn)模型精準錨定了指令需求,專注于為圖片上色,未對圖片其他元素做額外改動。漫畫中的原有文字,無論是字體樣式還是位置排版,均與處理前保持了高度一致。
圖片上色不成問題,那么改動某個物體的顏色,Gemini 2.0 Flash又表現(xiàn)如何呢?
記者隨即向Gemini 2.0 Flash發(fā)送了一張玫瑰的圖片,要求模型將玫瑰的顏色改成鮮紅色。
這次模型很快輸出了結果。回傳的圖片中,玫瑰呈鮮紅色,其色澤與質(zhì)感高度貼近現(xiàn)實中紅玫瑰的視覺效果,無論是花瓣的紋理還是整體色調(diào)的過渡,均處理得極為自然,幾乎難以察覺AI的修改痕跡。
任務3:AI電商模特,一鍵換衣
隨著記者加大測試難度,向其發(fā)送了一套服裝的圖片,要求模型將這套服裝穿到一位男性模特身上,同時將圖片背景色設定為橙色。
Gemini 2.0 Flash同樣很好地完成了任務。圖片中,服裝完美適配男性模特身形,且背景色也被準確替換為橙色,整體效果自然流暢,毫無違和感。
不僅如此,當記者進一步要求AI模特展示不同動作時,Gemini 2.0 Flash同樣輕松應對,快速為AI模特更換了拍照動作,堪稱電商從業(yè)者的福音。
任務4:生成圖文菜譜
Gemini 2.0 Flash還具備一項技能——生成圖文并茂的菜譜。為測試其實際表現(xiàn),記者以“番茄炒蛋”這道家常菜為例,要求模型生成一份包含詳細步驟的圖文菜譜。
可以看到,模型不僅完整且條理清晰地呈現(xiàn)出了“番茄炒蛋”的菜譜,從食材準備、烹飪步驟到火候掌控等信息一應俱全,還在菜譜相應位置精準插入了與之匹配的圖片。值得注意的是,這些圖片均由Gemini 2.0 Flash自行生成,而并非從互聯(lián)網(wǎng)上搜索獲取。
任務5:制作生日賀卡
在圖像生成領域,眾多模型在應對長段文本處理時,常陷入格式不佳、字符模糊難辨或錯別字頻出等問題。Gemini 2.0 Flash在這方面的表現(xiàn)如何呢?
記者向Gemini 2.0 Flash下達指令,要求其設計一張生日賀卡,并明確規(guī)定了賀卡上需呈現(xiàn)的文字祝福內(nèi)容。
約十秒鐘后,Gemini 2.0 Flash便生成了一張設計精美的生日賀卡。仔細查看,賀卡上不僅完整涵蓋了記者所要求的全部文字,而且文字清晰易讀,格式也規(guī)范得體。
總體來看,Gemini 2.0 Flash原生圖像生成功能的表現(xiàn)可圈可點,雖有一些小瑕疵,但為圖像生成技術的應用拓展了邊界。
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP