Google发布Gemini Omni:任何输入生成影片、首版限10秒


Google 在5/19 Google I/O 开发者大会上发布全新多模态模型Gemini Omni,宣传语为「从任何输入创造任何东西,从影片开始」。根据TechCrunch 5/19 报导,使用者可将图像、音讯、影片、文字混合在单一prompt 中,模型会跨模态推理生成单一输出、并可透过对话迭代修改。首版模型Gemini Omni Flash 同日上线、单片影片时长上限10 秒。

能力:跨模态推理、对话式编辑、模拟物理

Gemini Omni 与「先拼接再生成」的旧式pipeline 不同—它直接在多模态空间中推理。 Google 表示模型能忠实执行从简单到复杂的指令、模拟真实世界物理、并透过对话编辑影片。 Logan Kilpatrick 在X 将其定位为「Nano Banana for video」—把Nano Banana 在图像领域的对话式生成体验,搬到影片。

Flash 10 秒上限:部署决策、非模型限制

首版Gemini Omni Flash 将单片影片上限设定为10 秒。 Google 表示这是「部署决策」、而非模型本身能力上限—在运算需求高的阶段,先以较短时长换取更广泛的用户接触。更高阶的Omni Pro 版本尚未公布上线日期,Google 表示要等到「相对Flash 有阶跃式提升」才会释出。

同期Google I/O 全套发布

Omni 是本次Google I/O 多项AI 发布的其中一项,同期还包括Gemini 3.5 Flash 主力模型、Gemini Spark 个人agent、Google 搜寻25 年来最大AI 改版、AI Studio 全新代理框架等。与Anthropic 同日宣布Karpathy 加入形成竞争对照—Google 用产品矩阵、Anthropic 用研究人才,两种前沿AI 竞争路线在5/19 同一天明确展现。

本文链接地址:https://www.wwsww.cn/rgzn/38924.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。