Google发布Gemini Omni：任何输入生成影片、首版限10秒

Google 在5/19 Google I/O 开发者大会上发布全新多模态模型Gemini Omni，宣传语为「从任何输入创造任何东西，从影片开始」。根据TechCrunch 5/19 报导，使用者可将图像、音讯、影片、文字混合在单一prompt 中，模型会跨模态推理生成单一输出、并可透过对话迭代修改。首版模型Gemini Omni Flash 同日上线、单片影片时长上限10 秒。

能力：跨模态推理、对话式编辑、模拟物理

Gemini Omni 与「先拼接再生成」的旧式pipeline 不同—它直接在多模态空间中推理。 Google 表示模型能忠实执行从简单到复杂的指令、模拟真实世界物理、并透过对话编辑影片。 Logan Kilpatrick 在X 将其定位为「Nano Banana for video」—把Nano Banana 在图像领域的对话式生成体验，搬到影片。

Flash 10 秒上限：部署决策、非模型限制

首版Gemini Omni Flash 将单片影片上限设定为10 秒。 Google 表示这是「部署决策」、而非模型本身能力上限—在运算需求高的阶段，先以较短时长换取更广泛的用户接触。更高阶的Omni Pro 版本尚未公布上线日期，Google 表示要等到「相对Flash 有阶跃式提升」才会释出。

同期Google I/O 全套发布

Omni 是本次Google I/O 多项AI 发布的其中一项，同期还包括Gemini 3.5 Flash 主力模型、Gemini Spark 个人agent、Google 搜寻25 年来最大AI 改版、AI Studio 全新代理框架等。与Anthropic 同日宣布Karpathy 加入形成竞争对照—Google 用产品矩阵、Anthropic 用研究人才，两种前沿AI 竞争路线在5/19 同一天明确展现。

本文链接地址：https://www.wwsww.cn/rgzn/38924.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

能力：跨模态推理、对话式编辑、模拟物理

Flash 10 秒上限：部署决策、非模型限制

同期Google I/O 全套发布

相关文章阅读