ChatGPT-5是美国开放人工智能研究中心(OpenAI)于2025年8月发布的人工智能语言模型,整合了GPT系列的大语言处理能力与o系列的深度推理功能,可实现子模型调度及复杂任务处理。该模型支持编码、写作、多模态输入及长上下文理解,提供自动切换响应模式与个性化交互选项,适用于编程、数学推导和健康咨询等领域。
2023年8月,OpenAI提交“GPT-5”商标申请,并于2024年4月开始红队测试以优化系统安全性。截至2024年12月,OpenAI已完成GPT-5的两次大型训练运行,该模型为期六个月的训练仅在计算成本方面就花费了约5亿美元。2025年2月,OpenAI首席执行官萨姆奥尔特曼宣布计划推出GPT-5,免费版ChatGPT将集成该模型并可在标准智能设置下无限制使用。同年7月13日,代号为gpt-5-reasoning-alpha-2025-07-13的模型定稿,并于19日完成最终测试。
北京时间2025年8月8日凌晨1时,OpenAI通过线上发布会正式推出GPT-5,并通过ChatGPT与微软Copilot等平台开放使用。在基准测试中,GPT-5在LMArena竞技场全部细分类目位列第一,但在ARC-AGI-2测试中落后于Grok模型。其后续推出GPT-5-Codex等变体,并接入苹果iOS系统及微软开发生态
Grok 4是由埃隆·马斯克旗下人工智能公司xAI于2025年7月正式发布的大语言模型,系该公司自2023年推出初代模型以来的第四次重要迭代,包含标准版Grok 4与多代理版本Grok 4 Heavy,支持最高256K tokens的上下文窗口。该模型基于Colossus超级计算机训练,在学术问题处理上达到博士水平,宣称在"人类最后的考试"基准测试中刷新最高得分。
2025年7月10日,xAI通过直播正式发布Grok 4。该模型后推出Grok 4 Fast快速推理版本,具备200万token上下文支持能力,并被纳入美国联邦政府采购清单。
基准测试成绩优异:Grok 4 在多项基准测试中展现出强劲性能。其 HLE 标准得分 35%,运用推理技术后提升至 45%,远超同类模型;在 AIME'25 标准得分 95%,略优于OpenAI o3 和 Claude 4 Opus;Grok 4 Code 在 SWE Bench 中,标准得分 72%,使用推理技术后达 75%,与 Claude 4 Opus 接近,略高于OpenAI o3;在 ARC-AGI-2 测试中得分 15.9%,超过 Claude Opus 4 的 8.6%;在 Humanity's Last Exam (HLE) 完整题集中,Grok 4 达到 44.4% 准确率,超越OpenAI GPT-5 的 35.0% 和 GPT-4 (o3) 的 21.0%。
成本较高:Grok 4 的每任务成本为 2 美元至 4 美元,高于 GPT-5 的 0.73 美元。在 ARC-AGI-1 中,Grok 4 以 68% 领先 GPT-5 的 65.7%,每任务成本约为 1 美元,略高于 GPT-5 的 0.51 美元,表明 GPT-5 性价比更高。
Gemini 2.5计算机使用模型于2025年10月8日由谷歌发布,该模型基于Gemini 2.5 Pro构建,是一款专门为实现AI智能体与用户界面(UI)交互而设计的专业模型。
Gemini 2.5计算机使用模型在网页与移动端控制任务的多项权威基准测试中均取得了领先成绩,并且响应延迟更低。
Gemini 2.5 计算机使用模型在多项网页与移动端控制基准测试中表现卓越。在Online-Mind2Web、WebVoyager和AndroidWorld等权威测试中,其性能均优于当前主流替代方案。
测试数据表明,该模型在保持最低延迟的同时,提供了领先的浏览器控制质量。
例如在Browserbase的Online-Mind2Web测试中,模型准确率超过70%,而完成任务的延迟仅约 225 毫秒,在性能上超越了包括OpenAI和Anthropic在内的主要竞争对手。
目前,Gemini 2.5计算机使用模型主要针对网页浏览器场景进行了优化。尽管尚未支持桌面操作系统层级的控制,但它在AndroidWorld等移动端界面控制测试中已展现出显著潜力。