-
日期: 2026-05-14 | 来源: 知识分子 | 有0人参与评论 | 字体: 小 中 大
这也意味着研究流程本身正在发生变化。换句话说,选题不再是研究的起点,而只是 AI 智能体研究循环中的一个环节。不再是先有问题、再去根据数据分析,而是从数据出发生成问题,再由结果反过来筛选和调整问题。
如果说选题还离不开学者的把关,那么在具体方法执行层面,自动化已经更为彻底。
朱晨介绍,过去如果使用相对复杂的计量方法,比如双重差分(DID),必须先把方法写成函数再让系统调用。但自从有了Claude Code之后,她只需要简单用文字说明,例如“现在的OLS方法太简单识别不了因果,需要引入DID的方法”,智能体就能自主去调用相关的内容,并生成相应代码,无需她手动操作。
当程序报错,AI还会自动去读取日志以修复代码,速度甚至比人工调试还要快。特别是在处理高维面板数据时,她认为AI“比很多刚上手的博士生都要严谨,因为它不会马虎,会一遍一遍地去校验结果”。
在这种情况下,研究者的角色也在悄然变化。
朱晨感慨,现在她和AI的相处并不像使用一种工具,而是作为AI的“训练家”。她只要把需求和方向说清楚,其余的执行和学习,系统都能自动在后台完成。
如果说选题与代码编写还停留在执行层面,那么进入审稿阶段,AI已经可以在研究思路上给出很多建议了。甚至能够根据论文的逻辑漏洞,自主在方法库中检索并升级实证方法。
以“高等教育是否缩小了中国农村女性的职业性别差距”这个问题为例,智能体首先调取了中国健康与营养调查(CHNS)1989年至2011年的五万余条数据,在确认命题后,完成了一轮标准的固定效应回归,并生成了一篇约5000字的初稿。
接下来,初稿会进入审稿阶段。审稿智能体首先根据新颖性、识别可信度、数据质量、清晰度和政策相关性等五个维度的标准对论文进行评价,然后在1到10分中给出一个分数,如果不够6分的及格线会反复迭代,通常情况下会生成两到三稿。
更关键的是,这一过程不仅是打分,还伴随着具体的学术反馈。审稿智能体会按照真实投稿的标准提出意见,指出论证中和方法的问题,要求补充稳健性检验,或建议进行分组一致性分析等。
在那篇关于高等教育与农村女性的论文中,审稿智能体就提出可能存在反向因果的问题,即职业选择的前景本身可能会影响女性接受高等教育的机会。审稿意见建议引入 事件研究(event-study)设计、开展敏感性分析(sensitivity analysis),并对固定效应模型的识别假设作出更明确的说明。
这些意见会被直接转化为新的分析任务。执行智能体据此在方法库中检索更严密的方案,对实证策略进行补充和修正。经过多轮迭代,论文整体评分从 4.6 提升至 6.5,其中识别可信度由 3.2 提高至 5.8,表达清晰度从 4.1 提升至 6.9,提升最为明显。
然而,随着自动化程度不断提高,一个无法回避的问题也随之浮现:这些由 AI 生成的研究,究竟在多大程度上是可信的?
“幻觉”始终是对AI科研最核心的质疑之一。对于科研写作而言,这不仅意味着个别事实错误,更可能体现在引文不存在、数据对应错误,甚至在看似严密的论证中掺入并不存在的依据。一旦这些问题进入论文,就很难通过表面阅读被识别出来。
也正因此,朱晨花了很多时间去加强模型系统验证的力度。她的做法是在系统生成引文时,实时调用 Google Scholar 和 Crossref 等公开数据库的 API,并自动触发一个验证流程:只有在数据库中找到对应条目,且作者、年份、期刊信息完全匹配,并附有唯一 DOI 的文献,才会被保留,验证不通过的引用则会被直接剔除。
与此同时,结果本身也必须经过复现检验。在每次研究完成后,系统都会生成完整的 R 代码,研究者可以基于原始数据和抓取数据重新运行分析流程,确认回归结果与报告一致。朱晨强调,这一步复现是整个流程中不可或缺的环节,也是确保研究可靠、避免 AI 幻觉的关键。
03
学术界的危机
过去几年,尽管有着AlphaFold这样的AI科研工具诞生,但是研究者们好像没有真正担心AI会冲击科研本身,它更多被视作一项方便的、能够提升效率的工具。
然而在今年,随着AI智能体的发展,科研工作似乎也不再安全了。从数据获取、数据清洗到模型设计以及写作,这些工作正在一块块被模型接过。原本要做上几周的事情,现在往往几小时就能出结果,成本也更低。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见