当前位置：首页 > 知识 > 斯坦福新论文：微调已死，自主上下文当立

斯坦福新论文：微调已死，自主上下文当立

2025-10-28 12:07:56 [知识] 来源：邵阳市某某装饰材料业务部

时令发自凹非寺
量子位 | 公众号 QbitAI

是斯坦上下时候为传统微调献上挽歌了。

一项全新研究，福新刚刚又给微调致命一击。论文立龙岩市某某工业设备培训中心

来自斯坦福大学、微调文当SambaNova Systems公司和加州大学伯克利分校的已死研究人员，在新论文中证明：

依靠上下文工程，自主无需调整任何权重，斯坦上下模型也能不断变聪明。福新

他们提出的论文立方法名为智能体上下文工程ACE。

ACE不依赖模型重新训练，微调文当而是已死让上下文自主进化，通过反复生成、自主反思并编辑自己的斯坦上下提示，直至成为一个自我完善的福新龙岩市某某工业设备培训中心系统。

在智能体和特定领域的论文立基准测试中，ACE能同时优化离线上下文（如system prompt）和在线上下文（如agent memory），并稳定优于强力基线模型。

下面具体来看。

ACE框架

现在很多AI应用（比如自动处理财务数据的工具、能调用APP的智能助手）都靠 “上下文适配” 来提升能力。

简单来说，就是不给模型改底层参数，而是在输入里加指令、策略或证据，但老方法有两个大问题：

简洁偏置

为了让输入简短，把关键细节丢了。比如只说 “处理财务数据”，却没说 “要按XBRL格式核对数值”，导致模型犯错。

上下文崩溃

反复修改输入时，模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略，准确率为66.7，改一次就剩122个token，效果却下降到57.1。

ACE就是为了解决这两个问题来的，与将知识压缩为简短摘要或静态指令的方法不同，它将上下文视为不断演化的操作手册，能够随时间不断累积、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计，ACE把模型的 “上下文优化” 拆成分工明确的三个角色。

生成器（Generator）：负责生成推理轨迹；
反思器（Reflector）：负责从成功和错误中提炼具体见解；
整理器（Curator）：负责将这些见解整合到结构化的上下文更新中。

如上图所示，工作流程首先由生成器针对新查询生成推理轨迹，这些轨迹既能呈现有效策略，也会暴露常见错误。

随后，反思器对这些轨迹进行评析，从中提炼出经验教训，并可选择通过多轮迭代加以优化。

接着，整理器将这些经验合成为简洁的增量条目，再经由轻量级的非LLM逻辑，以确定性的方式将其合并至现有上下文中。

由于更新内容被逐项分解并局部化，多个增量得以并行合并，从而实现大规模的批量适应。

此外，ACE还支持多轮次适应机制，即对同一组查询进行反复学习，逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明，在智能体和财务分析两大场景中，ACE稳定优于Base LLM（无适配）、ICL（少样本演示）、GEPA（主流prompt优化）、Dynamic Cheatsheet（动态备忘单）等方法。

在智能体测试中，研究团队采用的是AppWorld，它是一套自主智能体任务集合，涵盖API理解、代码生成和环境交互。

结果显示，ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%，优势显著。这表明，与固定的演示示例或单一优化指令提示相比，结构化、可演进且精细化的上下文能够更有效地促进智能体学习。

这一优势在在线场景中同样得以延续：ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。

在财务分析中，研究者选用FiNER和Formula来测评模型的金融推理能力，其任务依赖可扩展商业报告语言（XBRL）。

FiNER要求对XBRL财务文档中的token进行标注，将其归类为139种细粒度实体类型之一，这是在受监管领域进行金融信息抽取的关键步骤。
Formula则侧重于从结构化XBRL报告中提取数值，并通过计算回答金融查询，即进行数值推理任务。

在离线环境下，当模型获得训练集中的真实答案作为输入时，ACE以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA。

此外，ACE在降低自适应成本（如尝试次数和token输入/生成的费用）与延迟方面展现出显著优势。

具体而言，在AppWorld的离线自适应任务中，与GEPA相比，ACE将自适应延迟降低了82.3%，并将尝试次数减少了75.1%。

在FiNER的在线自适应场景中，与DC相比，ACE实现了91.5%的自适应延迟降低，并在token输入与生成的相关费用上节省了83.6%。

华人出品

这项研究的两位一作都是华人。

Qizheng Zhang，斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间，他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究，专注于面向视频流与分析的网络系统设计。

此外，他还在美国阿贡国家实验室数学与计算机科学部（MCS）和微软研究院实习过。

Changran Hu，本科毕业于清华大学，硕士毕业于加州大学伯克利分校。

20岁时，他就成为了一家AI音乐生成公司DeepMusic的联合创始人，成功获得来自中国顶级企业的1000万美元投资，并与多位中国流行歌手（如周杰伦、李健）建立合作。

随后，他以应用科学家实习生的身份加入微软，并于2021年成为Sambanova Systems研究工程师，随后晋升为技术主管兼经理，主要负责模型后训练与智能体AI相关研发工作。

(责任编辑：焦点)

相关内容

推荐文章

一天遇两次航班超售！大学生390元买的机票获得1700元补偿

封面新闻记者杨金祝赶飞机，一天内遭遇两次航班超售，是一种怎样的体验？大学生孙同学刚好就是这个“天选之子”。第一次遇到超售，航空公司主动提出补偿他1200元。第二次，又获得了500元外加一晚免费住宿。 ...[详细]
今夜北京山区有弱降雨明天夜间至后天将有一次全市性降雨过程

北京市气象台9月18日11时发布：今天下午北京多云间晴，北转东风二三级，最高气温29℃；夜间多云，山区有零星小雨，东转北风一二级，最低气温21℃。今天夜间山区有弱降雨，请注意防范；明天夜间至后天白天将 ...[详细]
痛失英才！38岁青年法学家张祺乐逝世

　　澎湃新闻记者从张祺乐副教授多位友人处获悉，西南政法大学人权研究院人权学院）硕士生导师张祺乐副教授因病医治无效，于2024年9月17日10时30分在重庆逝世，享年38岁。　　张祺乐副教授1987年9 ...[详细]
警方又找回一名梅姨案被拐儿童

　　来源：大河报豫视频　　[警方又找回一名梅姨案被拐儿童]中秋节前一天，广东的警方通知钟彬的爸爸钟丁酉，钟彬找到了，DNA初步比对成功。2004年12月31日，一岁半的钟彬被拐，20年后的今天终于在广 ...[详细]
61岁大妈午饭后猝死！医生：饭后要避开的3件事，很多老人还在做

中午，赵大妈吃完一碗炸酱面后感觉困倦，像往常一样直接躺下午睡，嘴里嘟囔道“吃得太饱了，得躺会儿顺顺气”。没过一会赵大妈就没了声音，期间女儿还贴心给她盖了薄被，谁知两小时后再进房间时，发现母亲已无呼吸， ...[详细]
北京：21日10时至10时23分，五环外区域将试鸣防空警报

　　市国动办提示您：9月21日10时至10时23分，本市五环路以外区域将试鸣防空警报。请广大市民和临时来京人员保持正常的工作生活秩序。更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索，2 ...[详细]
泰国孕妇坠崖案当事人官宣生子：未来好好搞事业，好好带娃｜封面深镜

封面新闻记者燕磊“2102个日夜，终于再次拥抱了奇迹”，9月17日，电影《消失的她》原型、泰国孕妇坠崖案当事人王暖暖化名）在社交平台发文官宣生子。18日中午，王暖暖对封面新闻记者表示：“感恩，感动， ...[详细]
白蚁蚁后泡酒饮用？北京大兴机场海关查获用酒精浸泡的昆虫3瓶

新京报讯据“海关发布”微信公众号9月15日消息，近日，北京海关所属大兴机场海关关员在对入境航班进行监管时，发现一名选择无申报通道通关的旅客行李过机图像异常，显示箱内有3瓶不明物体。经开箱查验，现场关 ...[详细]
有望2026年亮相曝法拉利首款纯电动车谍照

日前，车质网从相关渠道获取了一组法拉利首款纯电动车路试谍照。官方暂时被命名为法拉利Elettrica意大利语中意为“电动”），动力上将会搭载由法拉利自主研发的四台电动机，技术灵感源自Formula 1 ...[详细]
撤船后，菲律宾叫嚣“继续保持存在”，中方专家：菲方不会讨得任何便宜

来源：环球时报菲海警船危险冲撞中国海警船【环球时报报道记者樊巍】菲海警9701舰因为“弹尽粮绝”撤出中国仙宾礁海域后，菲方不断给撤船找理由，并扬言将在仙宾礁海域“继续保持存在”。法新社16日报道称 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。