
Google 于2026 年4 月2 日正式发布Gemma 4,作为迄今为止最强大的开源模型之一,Gemma 4 在原生函数调用、代理工作流程、多模态感知方面实现重大突破,并采用商业友好的Apache 2.0 授权,为全球开发者与企业带来前所未有的自由度与灵活性。
Gemma 4 是什么?核心特色一次看
Gemma 4 是Google DeepMind 推出的开源大型语言模型系列,与Gemini 系列模型共享技术。核心亮点包括:
- 进阶推理能力:支持多步骤规划与深层逻辑推理,在数学与指令遵循基准测试上大幅超越同级开源模型。
- 原生代理工作流:内建函数调用、结构化JSON 输出与系统指令支持,可直接驱动自主AI 代理与多步骤任务执行。
- 本地端部署:E2B、E4B 版本专为手机等各设备优化,可完全离线运行。
- 全面多模态支持:所有版本原生支持图片与影片输入;E2B、E4B 额外支持原生音讯输入。
- 超长上下文视窗:边缘模型支持128K token,较大模型最高达256K token,可在单次提示中传入整个程式码库或长篇文件。
- 高品质程式码生成:支持离线程序代码编写,可将个人工作站打造为本地优先的AI 程式设计助手。
- 140+ 语言原生训练:支持全球超过140 种语言,助力开发者打造服务国际用户的多语系应用。
四种模型,最大化支持所有应用场景
Gemma 4 共推出四种版本,针对不同硬体环境与应用场景进行优化。其中,26B MoE 与31B Dense 的量化版本更能在消费级显示卡上原生执行,让强大的AI 推理能力真正普及到个人开发者的桌面。
Effective 2B(E2B)
首先是专为行动装置与IoT 设计的E2B,支持128K 上下文视窗、原生音讯输入,可完全离线运行于Android 手机、Raspberry Pi▲ 等设备。
Effective 4B(E4B)
再来是同样针对边缘端优化的E4B,具备多模态能力,能在推理效能与记忆体占用之间取得出色平衡。
26B 混合专家(MoE)
接着是MoE,该模型在推理时仅启动38 亿参数,以极低延迟实现高速推理,适合注重吞吐量的本地工作站部署。
31B Dense
最后是旗舰版本31B Dense,在Arena AI 文字排行榜上排名第三,提供最高品质的输出,并可在单张80GB NVIDIA H100 GPU 上完整运行。
本地端推理的重大突破:告别API 依赖
Gemma 4 最受瞩目的特点之一,在于强调「本地端(On-device)推理」能力。 E2B 与E4B 模型专为最大化运算效率与记忆体效率而设计,可在手机、Raspberry Pi▲、NVIDIA Jetson Orin Nano 等边缘设备上以近乎零延迟的运行。
这对开发者影响甚大,过去调用云端AI API 需要承担每次请求的费用,且存在网路延迟与资料隐私风险。而Gemma 4 的本地端推理能力,让开发者能在自有硬体上运行模型,大幅降低API 调用成本,同时享有完整的资料主权与离线可用性。
Google 更与Pixel 团队及高通、联发科等行动硬体伙伴紧密合作,确保E2B/E4B 在主流Android 装置上达到最佳效能,并为Android 开发者开放AICore Developer Preview,以便为整合Gemini Nano 4 进行开发。
强化AI 代理工作流,原生函数调用提高效率
Gemma 4 在代理工作流(Agentic Workflows)方面也实现了原生支持,这是与上一代最显著的功能跃升之一。该模型支持:
- 原生函数调用(Function Calling):模型可直接调用外部工具与API,执行实际操作,例如查询资料库、呼叫第三方服务等。
- 结构化JSON 输出:确保模型输出符合特定格式,便于与后端系统无缝整合。
- 原生系统指令(System Instructions):开发者可在系统层级设定模型行为,让AI 代理的角色设定更加稳定一致。
这些能力让Gemma 4 得以成为一个全能的自主AI 代理,不仅能回答问题,更能主动与工具互动、自动执行多步骤工作流程。
多模态全面升级:视觉、音讯、长文一应俱全
Gemma 4 全系列模型均具备原生多模态能力,大幅扩展了可处理的任务类型。
图片与影片
在视觉理解方面,所有模型均支持图片与影片的原生处理,支持可变解析度,在OCR(光学字元辨识)与图表理解等视觉任务上表现突出。
音讯输入
在音讯方面,E2B 与E4B 边缘模型额外支持原生音讯输入,可直接进行语音辨识与理解,无需额外的语音转文字步骤。
超长上下文
在文件方面,边缘模型支持128K token 上下文视窗,较大模型更提供高达256K token,让开发者能在单次提示中传入整个程式码库或长篇文件。
离线程式码生成
支持高品质离线程式码编写,可将个人工作站化身为本地优先的AI 程式设计助手。
140+ 语言支持
原生训练超过140 种语言,助力开发者打造服务全球用户的应用。
Apache 2.0 授权:开源生态里程碑
Gemma 4 采用Apache 2.0 授权发布,这是开源社群中商业友好度最高的授权之一。开发者与企业可自由使用、修改、分发模型,无论是部署在私有基础设施、混合云环境,还是嵌入商业产品中,均不受额外限制。
丰富的生态系统支持
Gemma 4 同时获得业界主要工具的全面支持,包括Hugging Face(Transformers、TRL、Transformers.js)、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM 与NeMo、Keras、Vertex AI 等。
开发者可透过Hugging Face、Kaggle 或Ollama 直接下载模型权重,并在Google AI Studio 中线上体验31B 与26B MoE 版本,或透过Google AI Edge Gallery 试用E2B 与E4B 版本。
对于需要大规模部署的企业,Google Cloud 提供完整的云端解决方案,涵盖Vertex AI、Cloud Run、GKE、Sovereign Cloud 以及TPU 加速推理服务,消除本地算力的上限限制。
降低成本但不牺牲能力:Gemma 4 成开发者新选择
Gemma 4 的发布是开源AI 模型的一个里程碑,作为具备生产部署能力的企业级工具,它能够在手机上离线运行、调用外部工具自主完成任务、处理冗长文件与多模态输入,同时让所有人得以自由使用。
对于想要在降低API 调用成本的同时保有AI 能力的开发者与企业来说,Gemma 4 提供了一条极具吸引力的路径。
本文链接地址:https://www.wwsww.cn/rgzn/37991.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。



