Back to Headlines

谷歌Gemini AI图像模型迎来“香蕉”级飞跃:细节与真实感全面升级

9 小时前

谷歌为其旗舰AI助手Gemini推出全新图像生成模型——Gemini 2.5 Flash Image,标志着其在AI图像编辑领域迎来重大升级。该功能自本周二起向所有Gemini应用用户开放,并同步上线开发者平台,包括Gemini API、AI Studio和Vertex AI。 新模型最大亮点在于实现更精准、自然的图像编辑,用户只需用自然语言描述需求,即可完成复杂修改,同时保持人物面部、动物特征等关键细节的连贯性。相比之下,其他工具如ChatGPT或xAI的Grok在修改衣物颜色时,常导致人脸扭曲或背景失真。Gemini 2.5 Flash Image能无缝融合人与狗的图像,同时保留各自特征,效果令人惊叹。 该模型在社交平台LMArena上以“nano-banana”为代号引发热议,被用户誉为“状态领先”的AI图像生成器。谷歌确认,这正是其Gemini 2.5 Flash模型内建的图像生成能力,已在多个基准测试中表现优异。 谷歌DeepMind视觉生成模型产品负责人Nicole Brichtova表示,新模型在视觉质量与指令理解能力上实现突破,能更流畅地完成编辑任务,输出结果具备实际应用价值。她强调,模型设计聚焦于日常使用场景,如家居装修、花园规划等,并支持多参考输入——例如将沙发、客厅照片和配色方案融合生成统一画面。 此外,Gemini 2.5 Flash Image支持“多轮对话式”图像编辑,用户可逐步完善生成内容。为防范滥用,谷歌设置了严格内容安全机制,禁止生成非自愿性亲密图像,并在AI生成图像中嵌入视觉水印和元数据标识,以提升真实性可追溯性。相较之下,Grok曾允许生成涉及名人(如泰勒·斯威夫特)的成人内容,引发争议。 尽管AI图像生成已成为科技巨头竞争焦点,ChatGPT已拥有超7亿周活跃用户,Gemini目前月活约4.5亿,尚存差距。此次升级被视为谷歌缩小用户差距、提升竞争力的关键一步。

Related Links