GPT-5-Codex–OpenAI推出的Agent编程优化模型

AI项目和框架 01月01日

271 3

GPT-5-Codex是什么

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型，基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务，如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间，简单任务秒回，复杂任务深度思考，支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色，能精准发现关键缺陷，减少无效评论。GPT-5-Codex 支持多模态输入，能在云端查看图片或截图并展示工作成果，是开发者的强大编程助手。

GPT-5-Codex的主要功能

代码生成与优化：根据自然语言描述快速生成高质量代码，支持多种编程语言、优化现有代码提升性能。
代码审查：支持自动发现代码中的关键缺陷和潜在问题，提供详细审查报告帮助开发者快速定位和修复。
交互式编程：在交互式会话中快速响应简单任务，同时能独立处理复杂任务，如大型重构，持续工作超过7小时。
多模态输入：支持图片输入用在前端设计和UI任务，能展示工作进度的截图提供直观反馈。
集成与扩展：无缝集成到VS Code、GitHub、ChatGPT等开发环境，支持网页搜索等外部工具调用提升开发效率。

GPT-5-Codex的性能表现

代码生成与优化：在SWE-bench Verified基准测试中，GPT-5-Codex准确率达74.5%，高于GPT-5的72.8%，且在代码重构任务上准确率从GPT-5的33.9%提升至51.3%。
动态思考时间：GPT-5-Codex能根据任务复杂度动态调整计算资源，简单任务token使用量比GPT-5减少93.7%，复杂任务token使用量增加102.2%，能独立工作超过7小时处理复杂任务。
代码审查能力：GPT-5-Codex错误评论率仅4.4%，高影响力评论占比达52.4%，平均每个PR评论数从GPT-5的1.32条降至0.93条，能有效发现关键缺陷、减少无效评论。
多模态处理：支持图片输入用于前端设计和UI任务，能展示工作进度的截图提供直观反馈，提升开发体验。
集成与扩展：支持无缝集成到VS Code、GitHub、ChatGPT等开发环境，通过容器缓存技术使新任务和后续任务的中位完成时间缩短90%，提升开发效率。

GPT-5-Codex的核心优势

优化方向：GPT-5-Codex是 GPT-5 的一个版本，专为在 Codex 中的代理编码进一步优化，训练重点是现实世界的软件工程工作，包括从零开始构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查等复杂任务。
动态思考时间：根据任务复杂度自动决定投入多少计算资源。对于最简单的 10% 任务，比 GPT-5 减少 93.7% 的 token 使用量；面对最复杂的 10% 任务，花费两倍时间进行推理、编辑、测试和迭代，能独立工作超过 7 小时处理大型复杂任务。
代码审查能力：被专门训练用在代码审查和发现关键缺陷，会导航代码库、推理依赖关系、运行代码和测试来验证正确性。在评估中，错误评论率仅 4.4%（GPT-5：13.7%），高影响力评论占比 52.4%（GPT-5：39.4%），平均每个 PR 0.93 条评论（GPT-5：1.32 条）。
前端任务表现：在创建移动网站时的人类偏好评估中显示出显著改进。在云端工作时，支持查看用户提供的图片或截图输入，视觉检查进度，并向用户展示工作截图。

GPT-5-Codex的不足

任务挑剔：对任务的范围和合理性有一定的限制，对于过于复杂的任务会直接拒绝。
环境设置麻烦：在设置过程中，可能会对用户的开发环境做出错误的假设，导致需要手动重新配置系统文件和环境设置，增加使用前的准备工作。
多Agent工作流问题：虽理解多个Agent的概念，但没有真正的子Agent，无法像Claude Code那样在长期研究任务中自动继续前进。

GPT-5-Codex的项目地址

项目官网：https://openai.com/index/introducing-upgrades-to-codex/

GPT-5-Codex的应用场景

软件开发全流程：从零开始构建完整项目，包括需求分析后的代码实现、功能添加、测试编写、调试及大规模代码重构等复杂任务。
代码审查环节：在代码上线前自动进行审查，发现关键漏洞和潜在问题，帮助团队提高代码质量和开发效率。
交互式编程协作：与开发者在交互式会话中配合，快速响应简单任务，同时能独立处理需要长时间思考的复杂任务，如大型重构。
前端设计与开发：支持图片输入，用在前端设计和UI任务，能查看用户提供的设计图或截图，生成相应的代码，展示工作进度的截图。

# AI项目和框架

什么是专家组合（MixtureofExperts,MoE）–AI百科知识

互联网

439

TripoSF–VASTAI推出的新一代3D基础模型

互联网

496

XVERSE-MoE-A36B–元象开源的国内最大MoE模型，推理性能提升100%

互联网

471

CAT4D–谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

互联网

280

Llama-3.1-Minitron–英伟达联合Meta推出的Llama3.14B参数模型

互联网

395

LongLLaVA–香港中文大学推出的多模态上下文混合架构大语言模型

互联网

356

GPT-5-Codex–OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么

GPT-5-Codex的主要功能

GPT-5-Codex的性能表现

GPT-5-Codex的核心优势

GPT-5-Codex的不足

GPT-5-Codex的项目地址

GPT-5-Codex的应用场景

ROMA–SentientAGI开源的多智能体框架

UnifoLM-WMA-0–宇树科技开源的世界模型行动框架

相关文章

热门工具

最新收录

最新文章

AI应用大全

GPT-5-Codex–OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么

GPT-5-Codex的主要功能

GPT-5-Codex的性能表现

GPT-5-Codex的核心优势

GPT-5-Codex的不足

GPT-5-Codex的项目地址

GPT-5-Codex的应用场景

ROMA–SentientAGI开源的多智能体框架

UnifoLM-WMA-0–宇树科技开源的世界模型行动框架

相关文章

热门工具

最新收录

最新文章