今年的 International Conference on Learning Representations(ICLR)2026 审稿阶段掀起波澜。一份流出的数据分析显示,大约 21% 的审稿意见被判定为由 AI 完全生成——这一数字迅速在学术圈炸开了锅。
在对 75800 篇论文的审稿意见统计中,完全由人类审稿人撰写的仅占 43%。
其中,21% 由 AI 完全生成、4% 由 AI 重度编辑、9% 由 AI 中度编辑、22% 由 AI 轻度编辑。
数据显示,AI 审稿的意见篇幅更长,而且AI 审稿更可能给出高分。
有用户在 Reddit 论坛吐槽,“我很担心审稿的质量,很多审稿人根本没有在做他们应该做的工作“,“这一批审稿质量简直是我见过最差”,“根本就是随机打分”。
与此同时,ICLR 会议在今年早期已发布针对 LLM 使用的政策里明确指出,作者与审稿人如使用 LLM 必须披露;若 LLM 被用来完全生成审稿意见或破坏对稿件的保密义务,将有伦理违规风险。
研究数据
为什么会产生这样的问题?
一个猜测是 ICLR 今年投稿爆炸式增长,审稿周期紧、稿件量大,AI 可生成合规且高效的评审文本。
此次事件,是 Pangram Labs 机构对 ICLR 2026 投稿人和审稿人使用 AI 的情况进行了详尽的分析。这是一家专门检测 AI 生成的科技公司。
由于评审文本很短,无法区分AI 辅助与AI 生成。因此,Pangram Labs 使用了 EditLens—— 一个可以量化一段文本中 AI 辅助程度的新模型。
一个有趣的发现是,论文中的 AI 使用程度与较低的评分呈相关性。被 Pangram Labs 标记为 90–100% AI 内容的投稿,平均得分竟然只有 2.9。
同时,完全由 AI 生成的评审平均得分居然比人类撰写的评审高出 0.3 分,长度也长了 26%。
Pangram Labs 使用 ICLR 2022 的审稿意见来验证模型准确性(假阳性率)。结果显示,完全由 AI 生成的未出现任何假阳性。
官方回应
ICLR 2026 马上发布了一则官方回应,表示“已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施”。
8月份 ICLR 发布的政策显示,审稿人使用 LLM 生成或辅助撰写意见,若未披露,将被视为违反伦理守则。
针对审稿人极端使用 LLM 生成的情形,会议保留取消其审稿/作者资格的权利。
除此之外,作者在投稿中,若使用 LLM 进行论文撰写或实验分析,也必须在论文中注明使用方式。
参考资料:
https://www.reddit.com/r/MachineLearning/comments/1otlqqv/d_iclr_2026_paper_reviews_discussion/?utm_source=chatgpt.com
https://blog.iclr.cc/2025/08/26/policies-on-large-language-model-usage-at-iclr-2026/?utm_source=chatgpt.com
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论