OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

导读目录
事件概述
根据 www.Todayusstock.com 报道,当地时间周四(9月25日),OpenAI发布了名为GDPval的新基准测试,用于比较其AI模型与各行业专业人士在经济价值工作上的表现。此次测试是OpenAI评估通用人工智能(AGI)能力的重要尝试,旨在衡量AI系统距离在经济价值岗位超越人类的程度。
GDPval测试介绍
GDPval基于美国GDP贡献最大的九个行业,涵盖医疗、金融、制造业和政府等领域,涉及44种职业,从软件工程师到护士,再到记者。测试通过邀请资深专业人士对比AI生成报告与人类报告,选出更优成果,以此评估AI在实际工作任务中的表现。
在首个版本GDPval-v0中,专业人士需要对比AI生成的报告与行业专家成果,并计算AI在全部44个职业中胜出的平均比例。
AI模型表现对比
| 模型 | 胜出或持平行业专家比例 | 说明 |
|---|---|---|
| GPT-5-high | 40.6% | 高算力版本GPT-5,接近行业专家水平 |
| Claude Opus 4.1 | 49% | 得分略高,部分因生成更美观图表 |
OpenAI指出,Claude Opus 4.1得分较高主要原因在于其倾向于生成更易读和美观的图表,而非在核心分析性能上完全优于GPT-5。
测试范围与局限性
需要说明的是,GDPval-v0仅测试了提交研究报告的能力,而大多数职业的实际工作远不止这一部分。OpenAI承认测试覆盖有限,并计划未来开发更全面的测试体系,包括更多行业和交互式工作流程,以更准确衡量AI对经济价值岗位的潜在影响。
专家评论与解读
OpenAI首席经济学家Aaron Chatterji表示,GDPval测试表明AI模型能够节省人类在某些任务上的时间,使其专注于更有价值的工作。他指出:“随着模型能力提升,人们可以把部分工作交给模型,去完成潜在更高价值的任务。”
OpenAI评估负责人Tejal Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%,而GPT-5成绩几乎提高三倍,显示AI能力正快速接近行业专家水平,并预计这一趋势将继续。
编辑总结
OpenAI通过GDPval基准测试对AI在经济价值工作中的能力进行量化评估。结果显示,GPT-5和Claude Opus 4.1在多个职业中已接近或持平行业专家水平,尤其在生成分析报告方面展现出显著潜力。虽然测试覆盖有限,但其进展表明AI在未来可能成为人类工作的重要辅助工具,提高效率和生产力。投资者和企业应关注AI在特定岗位和任务中的实际应用能力,而非短期完全替代的预测。
常见问题解答
问1:GDPval测试的主要目的是什么?
答:GDPval旨在评估AI模型在经济价值岗位上的表现,衡量其是否能达到或超越行业专业人士的水平,是OpenAI开发AGI的重要参考。
问2:GPT-5和Claude Opus 4.1的表现差异是什么?
答:GPT-5-high在44种职业任务中胜出或持平比例为40.6%,Claude Opus 4.1为49%。Claude得分略高主要因生成更美观图表,而非核心分析能力显著优于GPT-5。
问3:GDPval测试涵盖哪些行业和职业?
答:测试基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业、政府等,共涵盖44种职业,从软件工程师到护士及记者。
问4:GDPval测试是否能代表AI取代人类工作?
答:不能。当前测试仅覆盖部分任务,如报告生成,无法全面衡量职业工作全流程。AI更多是作为辅助工具,节省人类时间,提高效率。
问5:AI能力提升对工作效率的意义是什么?
答:AI可承担重复或标准化任务,使人类专注于更有价值的工作,从而提高整体生产力。随着能力提升,AI可覆盖更多复杂任务,为企业和经济创造潜在更高价值。
软银再发2600亿日元次级债融资AI投资 孙正义重仓AI面临高额资金压力
软银集团股价创历史新高 市值突破40万亿日元 OpenAI IPO临近引爆AI投资热情
OpenAI与马耳他达成全球首创合作 向所有公民免费提供一年ChatGPT Plus服务
OpenAI CEO奥尔特曼利益冲突遭美国国会调查 IPO前审查加剧 共和党人呼吁SEC介入
OpenAI与微软达成380亿美元营收分成上限 为IPO铺路并开放亚马逊谷歌新合作
软银携手英伟达富士康打造日本国产AI服务器 本土主权AI算力布局加速
OpenAI推出GPT-5.5-Cyber网络安全专版 有限预览助力漏洞识别与恶意软件分析
OpenAI牵头AMD英伟达Intel微软博通巨头联手发布MRC协议 解决AI大规模训练网络瓶颈
OpenAI Anthropic同日联手华尔街成立企业AI合资公司 OpenAI募40亿美金 Anthropic投15亿加速落地
OpenAI CFO Sarah Friar回应未达目标质疑:需求呈现“一堵垂直的需求墙” 公司正超额完成整体计划
OpenAI Codex重大更新上线Mac电脑自主控制功能 迈向超级AI应用第一步 开发者工具向通用智能体演进
OpenAI推出GPT-5.4-Cyber网络安全专用模型 与Anthropic Mythos展开竞速 贝森特与鲍威尔警告华尔街高管关注AI网络攻击风险
OpenAI推出100美元/月ChatGPT Pro订阅计划 细分定价直指Anthropic Claude 填补20至200美元定价断层
OpenAI二级市场遇冷:6亿美元股份无人接盘 投资者转投Anthropic 估值差距引发资金大挪移
OpenAI完成1220亿美元巨额融资 估值达8520亿美元 亚马逊投资500亿英伟达软银各投300亿 为AI芯片数据中心提供强大资金支持
OpenAI广告试点年化收入突破1亿美元 仅用六周时间 广告客户超600家 四月即将推出自助接入服务
OpenAI宣布关闭视频平台Sora 聚焦生产力工具与编程功能 IPO前战略调整 Sam Altman将Sora团队转向机器人技术
OpenAI将广告推向所有ChatGPT免费用户 RBC称存在显著压抑广告需求 强势催化GEO生成式引擎优化新赛道
奥尔特曼辞去Helion董事长职务 OpenAI与聚变能源公司探讨5吉瓦至50吉瓦大规模电力合作 避开利益冲突加速AI能源布局
OpenAI加速布局美国政府市场 与AWS签署协议向政府雇员提供AI服务 覆盖涉密与非涉密业务 意图复制Palantir路径并筹备年底上市





