Modular打造跨硬件整合AI 平台对决CUDA


在生成式AI 全面席卷全球的这个时刻,几乎所有LLM、云端服务与AI 新创,背后都离不开同一套关键基础建设,也就是辉达(NVIDIA) 的CUDA 软件生态。这套原本为显示卡打造的程式架构,在过去近二十年间,逐步扩张成AI 产业实际运作的「隐形作业系统」。

成立于2022 年的新创公司Modular,正试图正面挑战这种高度集中、由单一供应商主导的结构。 Modular 的目标不是再做一颗新晶片,而是打造一套「可携式AI 软件堆叠平台」,让AI 模型能在不同GPU 与加速器之间自由移动,不再被锁死在辉达与CUDA 的生态系中。

2022 年创业起点,底层工程师直闯CUDA 核心

Modular 由两位来自Apple 与Google 的底层软件工程师于2022 年创立。执行长Chris Lattner 曾打造Swift 与LLVM 编译器体系,共同创办人Tim Davis 则参与Google TPU 关键软件架构。

两人都曾亲历过新硬件如何「靠软件打开市场」的这个过程,因此选择离开大型科技公司,直接挑战CUDA 所代表的AI 软件霸权。这场不对称战争在业界眼中近乎疯狂,但也因为对系统底层理解够深,才被视为少数有机会尝试的团队。

CUDA 难以取代,AI 产业的结构性枷锁

CUDA 原本只是让显示卡能被程式化的工具,随着深度学习崛起,逐步扩张为涵盖语言、函式库、编译器与推论引擎的完整生态。

对多数AI 团队而言,只要使用辉达GPU,几乎就无法避开CUDA。即使市场上有AMD GPU、TPU 或云端业者自研晶片,每种硬件背后仍绑着专属软件,开发者自然倾向选择最成熟、工具最齐全的CUDA,形成高度锁定的产业结构。

没有诱因的工程,反而成为突破口

Lattner指出,跨晶片、跨供应商的可携式AI 软件并非不重要,而是「没有人有足够诱因承担成本」。这类工程难度极高、回收期漫长,短期内几乎看不到商业成果,却是整个产业普遍渴望的能力。

正是这种矛盾,让Modular 选择在生成式AI 爆发前,提前投入底层系统的长期开发,并在成立后前三年刻意远离市场聚光灯。

三年低调耕耘,资金与团队逐步到位

截至2025 年,Modular 已累计募得约3.8 亿美元资金,投资人包括多家矽谷一线创投。 2025 年9 月完成最新一轮融资后,公司估值约16 亿美元。

这些资源让Modular 能够招募来自Google、Apple 的资深工程师,组成专注于编译器、系统软件与AI 基础建设的团队,持续打磨完整软件堆叠。

三层软件架构,从语言到算力丛集

Modular 的技术核心由三层组成,分别为:

  1. 最上层:为Mammoth,用来协助企业在多GPU、多供应商环境中进行算力调度与管理,解决实际部署与维运问题。
  2. 中间层:为MAX 推论引擎,负责模型实际运行,已支援NVIDIA、AMD 与Apple Silicon。
  3. 最底层:为Mojo 程式语言,语法贴近Python、效能接近C++,可与主流AI 框架整合。

2025 关键验证,统一运算层正式成形

2025 年9 月,Modular 公布关键测试成果,在同一套软件平台下,同时驱动辉达Blackwell B200 与AMD MI355X 跑出顶级效能,其中MI355X 表现甚至较AMD 原生软件提升约50%。

随后在12/22,Modular Platform 25.6 正式发布,完整支援资料中心与消费级GPU,并首次让Mojo 直接支援Apple Silicon。官方将此形容为「Write once, run anywhere」,也就是:

「开发者用Mojo 写好的程式码,不需要为辉达、AMD、Apple Silicon 各写一套版本,同一份程式,就能在不同GPU、不同供应商的硬件上执行。」

象征统一AI 运算层从概念走向实际落地。

本文链接地址:https://www.wwsww.cn/rgzn/36092.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。