OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力
zhonghua @ 2024年08月15日 财经风云
| OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力 AI寒武纪 刚刚OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。该基准是对现有SWE-bench 的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。 刚刚OpenAI推出更可靠的代码生成评估基准:SWE-bench Verified。 发布blog里最重要的一句话是:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。 该基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。 SWE-bench是一个流行的软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。它通过向AI代理提供代码库和问题描述,并要求其生成修复问题的补丁来进行评估。虽然LLM在 SWE-bench上取得了令人瞩目的进展,但OpenAI的研究发现,该基准存在一些问题,可能导致低估模型的自主软件工程能力。 具体来说,OpenAI指出了SWE-bench的三个主要问题: 1.单元测试过于严格:用于评估解决方案正确性的单元测试通常过于具体,甚至与问题无关,这可能导致拒绝正确的解决方案。 2.问题描述不明确:许多样本的问题描述不够具体,导致对问题及其解决方案的理解存在歧义。 3.开发环境难以设置:有时难以可靠地为代理设置SWE-bench开发环境,这可能导致单元测试无论解决方案如何都会失败。 为了解决这些问题,OpenAI与专业的软件开发人员合作,对SWE-bench测试集中的每个样本进行了人工筛选,以确保单元测试的范围适当且问题描述明确。最终,他们发布了SWE-bench Verified,这是一个包含500 个样本的经过验证的子集,并取代了原始的SWE-bench和SWE-bench Lite测试集。 此外,OpenAI还与SWE-bench的作者合作,开发了一个新的评估工具,该工具使用容器化的Docker环境,使在SWE-bench上进行评估更容易、更可靠。 在SWE-bench Verified上,GPT-4o解决了33.2%的样本,而表现最佳的开源代理框架Agentless的得分翻了一番,达到16%。 OpenAI的这项研究突出了深入理解和改进评估基准的重要性,特别是当AI系统越来越接近通用人工智能 (AGI) 时。随着AI模型能力的不断提高,我们需要更加谨慎地评估其性能,以确保评估结果准确反映模型的真实能力。 OpenAI建议: 深入理解基准: 即使是精心设计的基准也可能存在问题,需要持续改进。 考虑生态系统的进步: 关注社区在代理框架方面的进展,并在评估风险时考虑潜在的外部增强功能 认识到局限性: 基于静态数据集的评估存在固有限制,需要补充其他评估方法。 详细信息:https://openai.com/index/introducing-swe-bench-verified/ 本文来源:AI寒武纪,原文标题:《OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- “新美联储通讯社”终极前瞻9月会议:情况复杂,..
- 美众议院议长对达成刺激计划表示乐观..
- 马化腾对内讲话:留给某些业务的时间不多了,不要..
- 财政部放出稳楼市大招:专项债可收购存量房 优化..
- AI新时代:云厂商大力扩产,内需为王..
- 比特币暴跌,发生了什么?
- 外资准入负面清单将持续“做减法” 今年调整重点..
- 2个月估值增1倍至10亿美金,搜索引擎正进入答案搜..
- 中俄农产品能源贸易火热 俄媒:2年内可达2000亿美..
- 柳传志将正式卸任联想控股董事长 本周内官宣..
- 伯南克与耶伦:美联储或设置收益率曲线限制 加息..
- 人民币对美元7个交易日贬值超1.7%:为何?最低会..
- 科创50ETF期权今起上市 对应ETF规模超870亿..
- 以前几百天卖不掉,如今挂牌1天“秒售”,“老破..
- 重估通胀的降息“份量”