OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

美股要聞10个月前 (09-26)121

OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平导读目录事件概述GDPval测试介绍AI模型表现对比测试范围与局限性专家评论与解读编辑总结常见问题解答事件概述根据 www.Todayusstock.com 报道，当地时间周四（9月25日），OpenAI发布了名为GDPval的新基准测试，用于比较其AI模型与各行业专...

导读目录

事件概述
GDPval测试介绍
AI模型表现对比
测试范围与局限性
专家评论与解读
编辑总结
常见问题解答

事件概述

根据 www.Todayusstock.com 报道，当地时间周四（9月25日），OpenAI发布了名为GDPval的新基准测试，用于比较其AI模型与各行业专业人士在经济价值工作上的表现。此次测试是OpenAI评估通用人工智能(AGI)能力的重要尝试，旨在衡量AI系统距离在经济价值岗位超越人类的程度。

GDPval测试介绍

GDPval基于美国GDP贡献最大的九个行业，涵盖医疗、金融、制造业和政府等领域，涉及44种职业，从软件工程师到护士，再到记者。测试通过邀请资深专业人士对比AI生成报告与人类报告，选出更优成果，以此评估AI在实际工作任务中的表现。

在首个版本GDPval-v0中，专业人士需要对比AI生成的报告与行业专家成果，并计算AI在全部44个职业中胜出的平均比例。

AI模型表现对比

模型	胜出或持平行业专家比例	说明
GPT-5-high	40.6%	高算力版本GPT-5，接近行业专家水平
Claude Opus 4.1	49%	得分略高，部分因生成更美观图表

OpenAI指出，Claude Opus 4.1得分较高主要原因在于其倾向于生成更易读和美观的图表，而非在核心分析性能上完全优于GPT-5。

测试范围与局限性

需要说明的是，GDPval-v0仅测试了提交研究报告的能力，而大多数职业的实际工作远不止这一部分。OpenAI承认测试覆盖有限，并计划未来开发更全面的测试体系，包括更多行业和交互式工作流程，以更准确衡量AI对经济价值岗位的潜在影响。

专家评论与解读

OpenAI首席经济学家Aaron Chatterji表示，GDPval测试表明AI模型能够节省人类在某些任务上的时间，使其专注于更有价值的工作。他指出：“随着模型能力提升，人们可以把部分工作交给模型，去完成潜在更高价值的任务。”

OpenAI评估负责人Tejal Patwardhan指出，约15个月前发布的GPT-4o模型得分仅为13.7%，而GPT-5成绩几乎提高三倍，显示AI能力正快速接近行业专家水平，并预计这一趋势将继续。

编辑总结

OpenAI通过GDPval基准测试对AI在经济价值工作中的能力进行量化评估。结果显示，GPT-5和Claude Opus 4.1在多个职业中已接近或持平行业专家水平，尤其在生成分析报告方面展现出显著潜力。虽然测试覆盖有限，但其进展表明AI在未来可能成为人类工作的重要辅助工具，提高效率和生产力。投资者和企业应关注AI在特定岗位和任务中的实际应用能力，而非短期完全替代的预测。

常见问题解答

问1：GDPval测试的主要目的是什么？
答：GDPval旨在评估AI模型在经济价值岗位上的表现，衡量其是否能达到或超越行业专业人士的水平，是OpenAI开发AGI的重要参考。

问2：GPT-5和Claude Opus 4.1的表现差异是什么？
答：GPT-5-high在44种职业任务中胜出或持平比例为40.6%，Claude Opus 4.1为49%。Claude得分略高主要因生成更美观图表，而非核心分析能力显著优于GPT-5。

问3：GDPval测试涵盖哪些行业和职业？
答：测试基于美国GDP贡献最大的九个行业，包括医疗、金融、制造业、政府等，共涵盖44种职业，从软件工程师到护士及记者。

问4：GDPval测试是否能代表AI取代人类工作？
答：不能。当前测试仅覆盖部分任务，如报告生成，无法全面衡量职业工作全流程。AI更多是作为辅助工具，节省人类时间，提高效率。

问5：AI能力提升对工作效率的意义是什么？
答：AI可承担重复或标准化任务，使人类专注于更有价值的工作，从而提高整体生产力。随着能力提升，AI可覆盖更多复杂任务，为企业和经济创造潜在更高价值。

标签OpenAI GPT-5 Claude Opus 4.1 GDPval AGI

上一篇：美股三大指数收跌英特尔大涨近9% 白银ETF创新高

下一篇：周四美股成交额排名特斯拉大跌英特尔大涨苹果欧盟法规争议

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

导读目录

事件概述

GDPval测试介绍

AI模型表现对比

测试范围与局限性

专家评论与解读

编辑总结

常见问题解答

OpenAI拟推首款无屏AI智能音箱最快今年发布挑战苹果舒适区双方竞争白热化

OpenAI Meta SpaceXAI竞推低成本高效AI模型企业支出审查推动行业定价重塑

OpenAI推出ChatGPT Work智能体连续数小时处理复杂任务 GPT-5.6驱动商务场景落地加速

OpenAI正式推出GPT-5.6系列模型 Sol/Terra/Luna面向公众开放多规格定价加速商业化

OpenAI与甲骨文达成战略合作前沿模型和Codex入驻Oracle云助力AI云生态加速

软银再发2600亿日元次级债融资AI投资孙正义重仓AI面临高额资金压力

软银集团股价创历史新高市值突破40万亿日元 OpenAI IPO临近引爆AI投资热情

OpenAI与马耳他达成全球首创合作向所有公民免费提供一年ChatGPT Plus服务

OpenAI CEO奥尔特曼利益冲突遭美国国会调查 IPO前审查加剧共和党人呼吁SEC介入

OpenAI与微软达成380亿美元营收分成上限为IPO铺路并开放亚马逊谷歌新合作

软银携手英伟达富士康打造日本国产AI服务器本土主权AI算力布局加速

OpenAI推出GPT-5.5-Cyber网络安全专版有限预览助力漏洞识别与恶意软件分析

OpenAI牵头AMD英伟达Intel微软博通巨头联手发布MRC协议解决AI大规模训练网络瓶颈

OpenAI Anthropic同日联手华尔街成立企业AI合资公司 OpenAI募40亿美金 Anthropic投15亿加速落地

OpenAI CFO Sarah Friar回应未达目标质疑：需求呈现“一堵垂直的需求墙” 公司正超额完成整体计划

OpenAI Codex重大更新上线Mac电脑自主控制功能迈向超级AI应用第一步开发者工具向通用智能体演进

OpenAI推出GPT-5.4-Cyber网络安全专用模型与Anthropic Mythos展开竞速贝森特与鲍威尔警告华尔街高管关注AI网络攻击风险

OpenAI推出100美元/月ChatGPT Pro订阅计划细分定价直指Anthropic Claude 填补20至200美元定价断层

OpenAI二级市场遇冷：6亿美元股份无人接盘投资者转投Anthropic 估值差距引发资金大挪移

OpenAI完成1220亿美元巨额融资估值达8520亿美元亚马逊投资500亿英伟达软银各投300亿为AI芯片数据中心提供强大资金支持

贊助

最近發表

熱門文章

港股7月8日强势拉升：恒生指数涨2.99%、恒生科技指数大涨4.97%，南向资金净流入142亿，AI与科网股领涨市场

熱評文章

標簽列表

您暂未设置收款码