OpenAI GPT-5.3-Codex-Spark上线:Pro用户抢先体验,回覆速度更快

OpenAI 最新宣布与AI 晶片新创Cerebras 合作推出GPT-5.3-Codex-Spark,为一款GPT-5.3-Codex 的小型版本,也是OpenAI 首款专为「即时写程序」所设计的模型。目前将先开放给ChatGPT Pro 用户,让开发者能抢先体验。

Cerebras 是什么?双方合作动机为何?

因OpenAI 近期面临用户规模快速成长与算力资源吃紧的双重压力,急需能支撑即时互动场景的超低延迟AI 推论算力,以提升ChatGPT、程式生成与AI 代理等产品的即时回应体验。

而Cerebras 主打的晶圆级晶片能消除传统GPU 丛集的通讯瓶颈,提供更快、更高效的推理性能。因此,OpenAI 与Cerebras 展开逾100 亿美元的多年期合作,采购高达750MW 的低延迟运算能力,一方面加速复杂查询、程式码生成与即时互动体验,另一方面也作为分散对辉达(NVIDIA) 依赖、强化供应链弹性的策略布局。

OpenAI 与Cerebras 的合作采取分阶段上线方式,相关基础建设将从2026 年起陆续启动,并持续到2028 年全面部署。 Cerebras 将负责托管与提供资料中心的专用低延迟算力,而OpenAI 则获得专属的超低延迟运算容量,已经应用于首款合作模型GPT-5.3-Codex-Spark 的推论运作。

Codex-Spark 为即时协作编程而生,双轨自动化成形

OpenAI 表示,近期推出的前沿模型,已能长时间自主执行复杂任务,连续运作数小时、数天甚至数周不需人工介入;而Codex-Spark 则是第一款专为「即时与Codex 协作写程式」设计的模型,主打开发者可即时要求修改程式码、调整逻辑与介面,并立即看到成果。代表Codex 目前正提供两种自动化工作模式:

「一种是长时间、长任务型自动执行,另一种则是即时互动、快速修改、即时回馈。」

OpenAI 指出,未来会依开发者实际使用回馈,来逐步扩大功能与开放范围。

低延迟资源有限,高峰恐出现限流

在研究预览阶段,Codex-Spark 提供128k 上下文长度,仅支援文字输入,并设有独立的流量与速率限制,不会占用一般标准模型额度。 OpenAI 也提醒,因采用特殊低延迟运算资源,在使用高峰期间,可能出现排队或暂时限制存取的情况,以维持整体服务稳定。

Codex-Spark 优化互动编程,速度能力并重

Codex-Spark 针对互动式写程式场景进行优化,强调速度与能力同样重要。使用者可在模型运作过程中即时打断或调整方向,快速反覆修改内容。

OpenAI 为确保回应速度,系统预设采取轻量化工作风格,只做最小必要修改,除非用户明确要求,否则不会自动执行测试。官方示例包含制作贪吃蛇游戏、规划专案与翻译档案等应用情境。下图为官方示意画面,强调:

「GPT-5.3-Codex-Spark 在制作游戏时,在程式码编写能力与速度上,已超越先前自家模型GPT-5.3-Codex。」

效能取向再进化,软体优化结合低延迟晶片助攻

OpenAI 表示,Codex-Spark 在完成任务的整体时间上明显缩短,并同步优化从请求送出到回应返回的整体流程,包括客户端与伺服器往返开销降低约80%、每个字元(Token) 的处理负担减少约30%。而当用户送出请求后,对话框开始出现第一个回应文字的时间也缩短约50%,整体互动流畅度明显提升。

硬件方面,Codex-Spark 部署于Cerebras 的Wafer Scale Engine 3 低延迟推论平台,并已整合进OpenAI 既有生产架构。 OpenAI 说明,GPU 仍是训练与推论的核心主力,负责大规模与成本效益运算,Cerebras 则补足极低延迟场景,两者可在同一工作流程中搭配使用。

目前Codex-Spark 以研究预览形式开放ChatGPT Pro 用户使用,API 仅提供少数设计合作伙伴测试;在安全面则已通过标准评估,未达内部高风险能力门槛,未来也将朝即时互动与长时间任务逐步融合的双模式方向发展。

本文链接地址:https://www.wwsww.cn/rgzn/37056.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。