文:Owen
面對 Google 上個月以 Nano Banana Pro 的 AI 圖像生成模型在網絡上掀起熱潮,而在 Gemini 3 發表後,OpenAI 內部曾發出 "code red" 狀態,反映公司對 Google 的 AI 技術發展感到威脅。不敢坐以待斃的 OpenAI,於日前公布全新 AI 圖像生成模型 ChatGPT Images,並帶來多項升級,目標是進一步提升指令理解能力,以及生成更細緻、更可控的影像內容。
OpenAI 應用部門行政總裁 Fidji Simo 在官方網誌中指出,不少人首次接觸 ChatGPT,正是從「將文字指令轉化為圖片」開始,這種體驗能直觀展示 AI 的潛力,但她亦坦言,原有的聊天介面並非為圖像創作而設。她表示,影像的創作與編輯屬於另一類型的工作流程,需要一個真正以視覺為核心的操作空間。
相比單純生成「一張靚相」,OpenAI 今次明顯更著重其編輯能力。OpenAI 表示,新模型的生成速度較以往快最多 4 倍,同時在遵循指令和編輯方面有顯著進步。用家可利用這些編輯能力加入指定物件、改變物件風格、模擬穿著特定服裝,或移除畫面中不需要的元素,整體操作更接近實際的執相流程,避免過往 AI 編輯常見的「穿崩」問題。
OpenAI 其中一個示範例子,就是要求 ChatGPT Images「以 Leica M 菲林相機配上 35mm 定焦鏡頭,以及 Kodak Portra 400 菲林,生成一張 1990 年代洛杉磯街頭滑板文化風格的相片」,其後再逐步要求更換滑板手的 T-shirt、在天空加入飛船,甚至將最終畫面變成印在 T-shirt 上、再由同一位滑板手穿著拍攝。整個過程展示了模型在連續指令與視覺一致性方面的能力。
值得留意的是,今次更新距離 OpenAI 與 Disney 達成合作僅相隔一星期。這項協議將於未來把超過 200 個 Disney 經典角色引入 ChatGPT Images 及 Sora 影片生成工具。不過,這項功能尚未支援 GPT-Image-1.5,預計要到 2026 年初才會正式開放,但新模型無疑將令創作這類角色形象變得更容易。
【新版 ChatGPT Images 試玩】




