【时快讯】施一公的西湖大学,发了个AI科学家!首超人类SOTA
智东西
作者 | 李水青
(相关资料图)
编辑 | 心缘
智东西10月13日报道,近日,西湖大学研究团队推出一款“AI科学家”智能体系统——DeepScientist,首次大规模实证AI能够在前沿科学任务上逐步超越人类的SOTA(行业最佳)。
▲DeepScientist开源界面
DeepScientist仅用两周就取得了相当于人类研究者三年研究成果的进展。研发团队通过三个前沿AI任务——智能体故障归因、大语言模型推理加速和AI文本检测,对此进行了验证。
▲DeepScientist用两周就取得相当于人类三年研究成果的进展
结果非常亮眼:DeepScientist仅用16块H800 GPU,花了一个月,最后在三个任务上都超过了人类的最先进方法——分别提升了183.7%、1.9%和7.9%。截至2025年9月,这一成绩也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。
▲DeepScientist在三个任务上都超过了人类的最先进方法
在这个过程中,DeepScientist就像人类科学家一样,明确目标、提假设、做验证、分析结果,还会一边记忆一边探索新方向。它总共想出约5000个科研点子,验证了1100个,最终有21个带来了科学创新。团队强调,这些点子都是通过自主重新设计核心方法,而非简单组合现有技术。
在使用DeepReviewer与其他AI科学家系统的28篇公开论文进行基准测试时,DeepScientist是唯一能产出接受率达60%的论文的AI科学家系统。
▲DeepScientist接受率达60%
背后,DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题,其架构通过一个配备开放知识系统和持续积累的发现记忆(Findings Memory)的多智能体系统,平衡对新假设的探索与利用,从而在预算受限的情况下最大限度地提高发现效率。
DeepScientist将采取四阶段渐进式开源。其目前已开源了前端和后端代码,并邀请小部分用户试用;计划在10月15日之前开源基础组件,支持用户构建自己的DeepScientist,11月之后还将发布实验数据以及开源DeepScientist的源代码。
▲DeepScientist论文截图
GitHub地址:
https://github.com/ResearAI/DeepScientist
论文地址:
https://arxiv.org/abs/2509.26603
体验申请地址:
http://ai-researcher.net/
一、3个AI任务验证:两周取得人类三年研究成果,超越人类183.7%
尽管此前的AI科研系统已能想出一些新点子,但它们往往缺乏针对性,无法解决紧迫的人类定义挑战,难以产出具有科学价值的成果。
西湖大学研究团队推出的DeepScientist系统,试图通过在长达数月的时间里进行目标导向的、完全自主的科学发现,来克服这一局限。
首先来看看三个AI任务,DeepScientist是如何取得科研成果的。
第一个AI任务是具有较高复杂度的“智能体故障归因”,即找出多AI系统里哪个AI导致任务失败。
DeepScientist发现当前方法缺乏归因所必需的反事实推理能力。通过反复试验、不断纠错以及综合新发现,最终提出了一种名为A2P(Abduction-Action-Prediction,溯因-行动-预测)的全新方法。
其核心创新在于将任务从简单的模式识别提升到结构化的因果推理,通过预测某个提议的解决方案是否本可带来成功,填补了反事实能力方面的关键空白。
这种新方法在Who&When基准测试的“算法生成”设置中获得了47.46分,比人类的SOTA基准提高了183.7%。截至2025年9月,无需训练的A2P方法仍保持着最先进水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成绩。
▲DeepScientist完成的研究论文截图
论文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf
二是大语言模型的推理加速任务,即让大语言模型运算更快。
此过程中,系统进行了许多不同的尝试,例如使用卡尔曼滤波器动态调整邻接矩阵,以解决原始方法缺乏记忆功能的问题。尽管这些尝试大多失败了,但系统生成的ACRA方法最终通过识别稳定的后缀模式,如图3所示,将MPBB从人类的最优水平190.25 tokens/秒提升到了193.90 tokens/秒。
从科学角度而言,这项创新意义重大,因为它利用这些额外的上下文信息动态调整解码猜测,有效地为该过程植入了长期记忆,打破了标准解码器的上下文坍缩问题。这一发现凸显了该系统的主要目标:创造人类未知的新知识,而非仅仅进行工程优化。
▲DeepScientist将MPBB提升到了193.90 tokens/秒
(该论文暂未上传GitHub)
三是AI文本检测,即让它判断一段文字是人类写的还是AI写的。
DeepScientist仅用两周就取得了相当于人类三年研究成果的进展。它通过在无需人类干预的情况下,实现目标导向、持续且迭代式的科学发现,克服了传统研究效率低的难题。
DeepScientist自主生成了2472个独特的研究思路,实现了600个最有前景的假设,并最终开发出在RAID数据集上将AUROC得分提高7.9%的方法,同时降低了推理延迟。
该系统产生了三种截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。
首先,T-Detect通过稳健的t分布修正了核心统计数据,随后,TDT和PA-Detect在概念上进行了演进,它们将文本视为一种信号,并使用小波和相位一致性分析来精确定位异常。从科学角度来看,这种转变揭示了AI生成文本的“非平稳性”,缓解了先前范式中因平均化局部证据而产生的信息瓶颈。
如下图所示,这一完整的发现轨迹展示了DeepScientist在逐步推进前沿科学发现方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同时推理速度也提升了一倍。
▲DeepScientist在AUROC得分提高了7.9%
▲DeepScientist完成的研究论文截图
论文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf
▲DeepScientist完成的研究论文截图
论文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf
二、仅用8块英伟达H800 GPU完成AI课题,DeepScientist架构解读
三项AI任务背后,团队仅为DeepScientist配备了两台服务器,每台服务器带有8块英伟达H800 GPU。
背后,DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题,并通过“提出假设、验证和分析”的分层评估流程加以实现。在这种分层方案中,只有展现出潜力的研究思路才会进入成本更高的评估阶段,从而在预算受限的情况下最大限度地提高发现效率。
DeepScientist的架构通过一个配备开放知识系统和持续积累的发现记忆(Findings Memory)的多智能体系统,实现了贝叶斯优化循环。其在探索新假设与挖掘最有前景的发现之间实现智能平衡,并将最具潜力的成果推进到更高保真度的验证阶段。
DeepScientist基于西湖大学此前已有研发成果,仅用两个月、花费约10万美元(约合71.3万元人民币)就搭建完成。来自西湖大学团队的文章第一作者Yixuan Weng最新采访记录公开,记录如下:
1、问:你之前的项目是CycleResearcher。为什么将这个新项目命名DeepScientist为而不是DeepResearcher?
答:早在2024年9月,我就计划将我现在的工作命名为“DeepResearcher”,类似于DeepReviewer。然而,OpenAI后来用了这个名字。所以我决定将我的项目命名为DeepScientist。
2、问:什么时候开源?
答:我会在确保足够安全的情况下才会开源,因为我还不能完全确定它DeepScientist给学术界带来的益处是否大于其潜在的风险。因此,我必须采取谨慎的态度。
(问:为什么要采取分阶段开源策略?)
因为社区热情高涨——几乎每个人都迫不及待地想让我开源它!我计划利用国庆节和中秋节假期来修改代码,以便社区能够尽早体验该系统,并探索它如何加速不同领域的科学发现。
感谢中关村研究院的支持,我们将能够免费向社区提供完整的DeepScientist系统。
3、问:我有机会重现或改进DeepScientist吗?
答:当然!我们只用了两个月就基于ResearStudio构建了它。我相信你可以轻松创建类似“Open-DeepScientist”或“nano-DeepScientist”的项目。我们强烈鼓励社区开展此类项目。
(ResearStudio是首个用于构建可人工干预的深度研究智能体的开源框架。它实现了人机实时协作,允许用户在执行过程中暂停、编辑和引导AI智能体,而非传统的“发射后不管”模式。其Agent核心层采用了规划器(GPT-4)和执行器(GPT-4o-mini/o3)。)
GitHub地址:
https://github.com/ResearAI/ResearStudio?tab=readme-ov-file
4、问:您是否认为AI驱动的科学发现存在缩放定律?
答:我坚信AI驱动的科学发现遵循其自身的“缩放定律”。但这并非孤立现象——它是人类不断加速的科学发现的自然延伸和放大。纵观历史,科学进步的速度一直在不断加快,在现代,这种加速尤为明显。从中学开始,我就喜欢玩《席德·梅尔的文明》,游戏中知识和技术的积累会更快地带来“尤里卡时刻”。我相信,我们现在正在进入一个由AI驱动的现实世界的“尤里卡时代”。
5、问:目前,所谓的“AI科学家”看起来更像是“高通量试错机器”,而不是真正具有深刻洞察力的“发现者”。我们如何才能提升他们的科学直觉?
答:首先,随着模型能力的提升,我已经感受到它们识别科学问题局限性的能力在提升。早期的DeepSeek-R1版本,它的观察结果非常肤浅。但Qwen-3-235B-Thinking-2507发布后,它的洞察力和假设生成能力明显提升。在我看来,只有比Qwen-3-235B版本更强大的模型才能产生真正有价值的发现。
RLVR(基于可验证奖励的强化学习)是一个很有前景的方向,但它也面临挑战:成本高昂、训练效率低,大约需要1000个GPU小时才能生成一个有用的样本。
6、问:这项研究的总成本约为10万美元(约合71.3万元人民币)。与资助一名人类博士生进行类似研究周期相比,您认为目前这笔费用是否划算?
答:我认为两者各有优势。失败是成功之母,而AI最大的优势在于它能够持续探索而不疲倦。
一方面,我们可以依靠AI尝试许多不同的策略——即使发现某种方法在某个领域失败了,本身也是一个有意义的发现。另一方面,这仅仅是个开始。未来几年,由于能力的提升和推理成本的降低,AI的成本将大幅下降。
7、问:您论文中最令人兴奋的发现之一是计算资源与研究产出之间的“近线性关系”。您预测这种趋势会随着GPU数量的增加而无限期地持续下去吗?还是很快就会遇到瓶颈?下一个瓶颈可能是什么?
答:我认为这种情况不会无限期地持续下去。我们即将遇到瓶颈。下一个瓶颈将是“探索效率”,而不是“探索规模”。目前,大多数计算资源都浪费在低价值的探索上。未来的挑战是如何避免这种低价值的工作。
虽然DeepScientist偶尔会通过反复试验发现新的方法来提高性能,但收益往往微乎其微。只有当我们能够进行大规模、高价值的探索时,真正的突破才会到来。
8、问:还有其他惊喜吗?
答:是的!10月初,我们双方将全面开源一款工具。我相信每位研究人员都会对此感兴趣——它显著增强了DeepScientist的演示能力。
三、4步渐进式开源:10月中用户可构建自己的AI科学家
DeepScientist的整个开源计划会分为四个阶段。
阶段0:通用智能体框架
西湖大学已经在ResearAI/ResearStudio开源了前端和后端代码。用户可以以此为基础,使用自己的自定义工具构建各种专业的Agent。
GitHub地址:
https://github.com/ResearAI/ResearStudio
第一阶段:基于应用程序的访问(预计在10月1日之前)
为了确保安全,西湖大学团队将邀请一小部分用户试用DeepScientist,共同完善该框架。如果用户有准备探索的任务,可以填写其等候名单表格。
申请地址:
https://forms.gle/8FnGgqgBVEKv3q6a7
第二阶段:基础组件发布(预计10月15日之前)
在确保安全之后,西湖大学团队将开源基础组件。在此阶段,用户可以立即开始构建自己的DeepScientist,或者复制西湖大学团队的工作。
第三阶段:实验数据发布(预计11月之后)
西湖大学团队将开源所有约5000条假设和约1100条实验日志。这将是首次公开如此大规模的AI实验结果数据集。
第四阶段:DeepScientist源代码发布
西湖大学团队将进行长期测试和调整,以防止对人类研究造成任何潜在危害。之后,团队将发布DeepScientist代码的核心架构,以促进社区发展。
结语:AI科学家赋能科研,进入规模化实证阶段
西湖大学研发团队首次通过实证展示了一个自动化全周期科学发现系统,该系统能够产生新颖且超越现有最佳水平的方法,并以大幅超过人类研究人员的速度不断推进科学前沿。AI有望真正推动多个不同领域的前沿发展,产生具有持久影响的发现,并系统地推进多个领域的技术前沿。
不过,团队也坦言AI科研的成功率还可以继续提升,5000个点子里最终仅21个能真正带来科学突破,约60%的失败是因为代码实现出错。但好在它效率高,而且给它更多计算资源,它出成果的数量也会差不多成比例增加。
为了让AI成为更得力的合作伙伴,西湖大学研发团队认为,未来的工作应聚焦于几项关键改进:开发模拟发现环境,通过强化学习加速学习进程;构建整合科学界反馈的框架;最终通过机器人技术弥合与物理科学之间的差距。
图片
-
第五届中国国际消费品博览会
中国香港组合夺羽毛球亚锦赛
四川:15000余名跑友参加202
-
女超联赛:武汉车谷江大队战
“韩红爱心·乡村急救十周年
2025广东省定向公开赛(广州
浙江(丽水)生态产品交易平
比利时陶瓷爱好者走进“青瓷
首次发现!九寨沟箭竹海发现
-
喜人之夜笑庆盛典在澳门举行
第五届中国国际消费品博览会
2025年国际冰联女子冰球世锦
751家企业携3.5万个优质岗位
7国来华留学生赴库布其沙漠
2025年女子冰球世锦赛(甲级
-
赓续千年茶礼 杭州淳安举行
平陆运河动物通道桥建设加速
四川:电力部门利用科技手段
广西东兴口岸一季度货车通关
2025世界牡丹大会在山东菏泽
贵州:可信AI数据空间创新探
精彩推送
- 【时快讯】施一公的西湖大学,发了个AI科学家!首超人类SOTA
- 长城汽车启动2026届校招会暨兴冀车队“长城-E5”赛车发布会,以长期主义战略构筑人才高地
- 每日精选:Evercore ISI上调特斯拉目标价至300美元
- PriceSeek提醒:四川玉龙三聚氰胺报价下调 焦点热文
- 苹果供应商在中国启动10亿元人民币新能源基金 动态
- 10月14日生意社尿素基准价为1572.50元/吨-速递
- 【评论员观察】为秋收提供全链服务
- 焦点速读:动态优化:GEO如何响应AI搜索算法的实时迭代?
- ETF新玩家渐次入场 创新产品线持续推进_新视野
- 攻防两端都有些力不从心!快船锋线老将的状态真的出现下滑了?
- 最高10000元奖金!即将截止!_重点聚焦
- 美股三大指数集体高开 热门看点
- 当前关注:追风防城港!每一帧都是与山海的浪漫对话
- 世贸通EB5投资移民:美国再推“限招令”,赴美留学如何突围身份规划?
- 宝鼎科技:河西金矿不生产铜银等副产品
- 天天资讯:微信一下瘦身10G,实测有效!
- 东岳硅材:前三季度净利润同比预降96.27%—97.40%
- 对话“孩子考61分全家欢呼下馆子”当事人:本身不是百分父母,干嘛非要孩子百分|每日热议
- 禹洲集团:9月合同销售金额3.61亿元-每日速读
- 北方华创:公司2024年40-45岁的研发人员数量略有下降,但40岁及以上的研发人员总数由2023年的335人增加至2024年的383人 最资讯
- 苹果CEO库克现身上海Labubu主题巡展现场,与泡泡玛特CEO王宁、Labubu设计师龙家升亲密互动!获赠拿着iPhone的Labubu玩偶_天天快报
- 我在现场·光影流年丨当这份爱默默流淌了37年,如今的他们,还好吗?
- 最新消息:大行评级丨花旗:重申亚马逊“买入”评级 第三季业绩很可能超市场预期
- 昆山民用无人机基地正式揭牌启用 每日信息
- 【新华500】新华500指数(989001)13日跌0.45%_每日速讯
- 快资讯:PriceSeek重点提醒:湖南锑市节后弱势 供应宽松需求不足
- 每日速看!生意社:10月13日山东地区MTBE生产企业报价持稳
- 10月13日海安中山锦纶DTY小幅下调-新消息
- 实时焦点:马祖拉:篮板球的争抢囊括了意志力、技术在内的所有因素
- 江苏农垦乳业科技公司注册成立|每日视讯
- 国际研究视野下的富里酸:从细胞代谢到免疫调节的多重潜力
- 中国海诚:公司使用人工智能技术自主研发在线智能知识管理平台,提升工作效率 每日热讯
- 今日快讯:费城交响乐团首访青岛 与青岛乐团共奏经典曲目
- 青春华章|漫评:水脉映山河,青春谱新篇
- 生意社:10月13日上饶市朗青矿业碳酸钙价格稳定 即时看
- 全运会蹦床决赛:胡译乘夺两金 严浪宇实现卫冕 今日热文
- 生猪市场旺季不旺 周期磨底或将持续 报资讯
- 物流业景气指数跑出“加速度”释放三大信号 观点
- 快消息!宜宾2:0战胜泸州!宜宾队主教练邹侑根:打了一场漂亮的反击战
- “祁厅长”空降武汉 现场人气太火爆! 每日观察
- 当前热点广州未序商贸有限公司成立 注册资本1万人民币
- 今日热文:中持股份:第一大股东拟协议转让其所有公司股份
- 煤炭开采行业跟踪周报:节日期间需求较弱,港口煤价略有上涨|即时焦点
- 脑洞科技(02203.HK)以总代价约190万美元出售1.27万股罗宾汉股份|每日讯息
- 科技股暴跌,无需找利空-焦点热议
- 比亚迪中标新加坡首个L4级智驾巴士试点项目
- 当前焦点!投资基金时如何利用风险管理工具?
- 【独家焦点】Guangdong Meets Akihabara: Chinese IPs Spark a New Creative Wave|SFC Markets and Finance
- 费兰社媒晒罚点照片:国家队50场里程碑,离世界杯更进一步
- 察哈尔右翼前旗匠心建材经销部(个体工商户)成立 注册资本3万人民币
- 继续引援?斯洛特想在冬窗买下后卫+边锋,针对解决困扰难题 今日报
- 颠覆性证据!山东淄博发现45粒9000年前炭化小豆,比秦始皇早近7000年!“使中国小豆利用史与日本绳文早期证据并驾齐驱”_通讯
- 上海玖浩的迁贸易有限公司成立 注册资本100万人民币
- 山东沂南:多措并举抢收玉米
- 廊坊开发区:积极应对持续降雨 全力做好排水清淤工作_快播报
- 达州市达川区堡子镇久胜建材门市部(个体工商户)成立 注册资本5万人民币
- 【时快讯】自贡市自流井区缪氏包子店(个体工商户)成立 注册资本7万人民币
- 晶采观察丨读懂“假日经济”里的消费新趋势|每日消息
- 焦点快报!长安汽车公布整车空气动力学性能优化专利
- 动态:永定vlog|桑干河、洋河交汇处,永定河之称从这里开始!
- 如何评估银行的资产配置建议是否合理?-今热点
- 武汉市洪山区秋石慢原创珠宝店(个体工商户)成立 注册资本1万人民币
- 每日快讯!伦纳德:对阵广州的比赛我会出战;球队在进攻端要加快节奏
- 吉宝数据中心房地产信托收购日本大东京圈印西市超大规模数据中心
- 期货交易的止损止盈设置有何技巧?_每日消息
- 和讯投顾魏玉根:别慌!下周一操作思路来了! 时讯
- 富国基金申请启动页生成方法等相关专利,显著提高设计和开发效率 即时
- 牧原股份2025年半年度利润分配:分红总额50亿元!
- 保诚于10月9日斥资288.98万英镑回购28.03万股
- 明冠新材:将拓展铝塑膜及特种防护膜的产品市场
- 每日热门:南通和创健身器材有限公司成立 注册资本50万人民币
- 焦点信息:贵州省:国庆中秋假期新能源汽车流量显著增长
- 每日资讯:百年光影 对话故宫今昔
- 焦点要闻:生意社:10月10日LME基本金属库存统计
- 辛纳夺中网男单冠军
- 载人登月“进度条”持续刷新|每日快看
- 观焦点:秦安股份:融资净买入412.83万元,融资余额1.72亿元(10-10)
- 重药控股(000950.SZ)发预增,预计前三季度归母净利润3.58亿元至4亿元 增长22.51%—36.88%
- 上海调整2025年汽车以旧换新补贴活动规则
- 南宫市玖越汽车配件有限公司成立 注册资本5万人民币 通讯
- 邹学校院士率领团队攻关 我国盐碱地辣椒种植实现重要突破
- 从“活下来”到“火起来” 非遗工坊的传承与突围 速看
- 招商积余(001914.SZ):累计回购0.134%股份
- 久之洋:截至2025年9月30日收盘公司股东人数为16784户 焦点短讯
- 又是点球大战!泰州队晋级“苏超”四强_热资讯
- 每日速读!东芯股份:东方恒信集团和苏州东芯科创拟询价转让1326.75万股 占总股本3.00%
- 北京越野迎双里程碑:累计生产320万辆,月生产首破万辆
- 溯源常山山野:山茶花沐浴液体皂,开启自然洗护新体验
- 中科云出海启示录——深港金融科技聚合力,让小微企业敢接海外订单
- 运鸿集团旗下【世界金融资产交易中心】获两项高含金量许可证
- 达成历史最佳9月销量表现 长城汽车9月销售新车13.36万辆 同比增长23.29%
- 超凡守护 为爱前行|金领冠50°超凡守护公益行动走进云南怒江
- BJ30旅行家上市,北京越野加速启动“人民越野”时代
- 猛士M817 Max+版新款上市,如何用“超200km纯电续航+顶级智驾”构建代差级领先?
- 微众银行与粤西顺丰并肩护航,以“暖实力”助粤西中小企业稳迎中秋旺季
- 民生银行北京分行构建“大消保”格局 守护大众资金安全防线
- 凤凰金翼“游猎隼R500”以508公里/小时的速度、刷新极速中国纪录
- 香港塔罗学会:在众声喧哗中,定义真正的塔罗专业与权威
- 微众银行千万“活水”到账,撑起融粤汽车出海突围路
- 森森火山泥,开辟专业赛道,四大功能引领新型环保装修涂料风向!