文:Owen
AI 影像生成技術再跨越一大步,令賴以影像維生的攝影師和美術設計師,以至是相關周邊行業都會迎來重大衝擊!因為 OpenAI 剛剛正式發表 ChatGPT Images 2.0,這不單是純粹的模型升級,更是將影像生成納入完整工作流程。這個新系統目前已於 ChatGPT、Codex 及 API 平台登場,特別強調在設計、教育及開發等實務場景中的精確度、靈活性與控制力。
與以往單純追求視覺美感的模型不同,Images 2.0 的定位是為了在設計、內容創作與教育工作流中產生「可用」的輸出。OpenAI 指出,一張優質的圖像應該像一句優美的句子一樣,具備選擇、排列與揭示資訊的功能。它可以解釋一套複雜的機制、營造特定的氛圍、測試構思或是提出論點。這標誌著一個重大轉變,影像生成不再是一個獨立的功能,而是成為解決問題過程中的一部分,視覺輸出被視為具備結構性的資訊,而非純粹的審美對象。
Images 2.0 最顯著的改進之一,在於處理高度具體且細緻指令的能力。過往影像系統經常在細微元素上「出事」,但新模型在遵循複雜指令與保留精細細節方面展現了前所未有的忠實度。它能概念化更複雜的圖像,並將視覺構思有效轉化為實體,尤其在處理小型文字、標誌圖示、UI 界面元素、高密度構圖以及微妙的風格約束時,表現遠超之前的 ChatGPT 模型。過往大家利用 AI「造圖」最易「穿崩」的會在非英語文字部分,而最新的 Images 2.0 終於克服這一大障礙,在中文、日文、韓文、印地語及孟加拉語的文字渲染上有顯著提升。這項進步不僅限於簡單翻譯,新模型現在能將文字更有條理整合到設計之中,無論是海報、圖表還是漫畫等敘事,都能呈現出正確的文字排版。
另一個值得留意的,是「推理能力」開始介入影像生成。Images 2.0 可以一次生成多張具連貫性的畫面,這意味工作流程不再像昔日般逐張圖慢慢砌,而是由系統一次過輸出整體方案。對於設計師或內容創作者而言,這種效率提升其實相當實際。當然,Images 2.0 現階段仍然未算完美。涉及複雜結構、精準比例或高度物理邏輯的畫面,依然有機會出現錯誤;而過於密集的細節(例如工程圖)亦未必完全可靠。換句話說,它已經由「不能用」進步到「可以用,但要睇位」。
Images 2.0 大幅擴展畫面比例支援,範圍從 3:1 超寬橫度到 1:3 超長直度均可應對。這代表生成的素材可以直接套用在 Banner、演示投影片、海報、手機屏幕,甚至是社交媒體圖片,減少了後期裁切的麻煩。不過,在 AI 愈來愈聰明的年代,亦代表 Deepfake 圖片數量會大幅上升,甚至影響公眾的判斷力,尤其是日後當大家看到新聞相片的話,可能都要先想想這是否「設計圖片」來的?




