HyperAI超神经

谷歌为其旗舰AI助手Gemini推出全新图像生成模型——Gemini 2.5 Flash Image，标志着其在AI图像编辑领域迎来重大升级。该功能自本周二起向所有Gemini应用用户开放，并同步上线开发者平台，包括Gemini API、AI Studio和Vertex AI。新模型最大亮点在于实现更精准、自然的图像编辑，用户只需用自然语言描述需求，即可完成复杂修改，同时保持人物面部、动物特征等关键细节的连贯性。相比之下，其他工具如ChatGPT或xAI的Grok在修改衣物颜色时，常导致人脸扭曲或背景失真。Gemini 2.5 Flash Image能无缝融合人与狗的图像，同时保留各自特征，效果令人惊叹。该模型在社交平台LMArena上以“nano-banana”为代号引发热议，被用户誉为“状态领先”的AI图像生成器。谷歌确认，这正是其Gemini 2.5 Flash模型内建的图像生成能力，已在多个基准测试中表现优异。谷歌DeepMind视觉生成模型产品负责人Nicole Brichtova表示，新模型在视觉质量与指令理解能力上实现突破，能更流畅地完成编辑任务，输出结果具备实际应用价值。她强调，模型设计聚焦于日常使用场景，如家居装修、花园规划等，并支持多参考输入——例如将沙发、客厅照片和配色方案融合生成统一画面。此外，Gemini 2.5 Flash Image支持“多轮对话式”图像编辑，用户可逐步完善生成内容。为防范滥用，谷歌设置了严格内容安全机制，禁止生成非自愿性亲密图像，并在AI生成图像中嵌入视觉水印和元数据标识，以提升真实性可追溯性。相较之下，Grok曾允许生成涉及名人（如泰勒·斯威夫特）的成人内容，引发争议。尽管AI图像生成已成为科技巨头竞争焦点，ChatGPT已拥有超7亿周活跃用户，Gemini目前月活约4.5亿，尚存差距。此次升级被视为谷歌缩小用户差距、提升竞争力的关键一步。

谷歌Gemini AI图像模型迎来“香蕉”级飞跃：细节与真实感全面升级

Related Links