五洲同-鸿儒私塾一医一师世界

2023年11月24日星期五

🇨🇳 🇹🇼 🇭🇰 实测近5000篇论文：3位中国博士生发现惊喜结果王兆昱｜科学网｜2023-11-24 声明：本消息或因风格和篇幅原因进行过编辑，但消息未经核实，也不代表我们的立场、观点和思想，且不可理解为是我们的建议。[ 使用条款 ] 赞助信息谷歌DeepMind创始人之一沙恩·莱格（Shane Legg）认为，超越人类水平的人工智能将在2025年左右出现。而有3位华人博士生，在让GPT-4充当“审稿人”，审阅3000多篇Nature论文和1700多篇顶会论文后，惊喜地发现，在提供论文评审意见这件事上，AI有望达到类似人类审稿人的水平。这是梁伟欣、张钰晖和曹瀚成花了5个月完成的研究。作为美国斯坦福大学计算机科学系的博士生，他们切身感受到计算机领域论文“井喷式增长”带来的审稿压力，于是踏出了GPT-4在“审稿”方面尝试的“第一步”。 10月初，这项研究以论文的形式公布在arXiv平台上，目前处于“顶刊在投”阶段。论文共同第一作者之一曹瀚成告诉《中国科学报》，他希望未来有更多同方向的研究，进一步解决AI审稿的局限性。点击图片看原图曹瀚成受访者供图论文“井喷式增长”，审稿压力“太难顶” “我们的初心非常简单，就是看看大家玩了很久的ChatGPT、大模型在提供论文评审意见上有没有一些用处，是否能够缓解人工审稿的压力。”曹瀚成回忆道。近年来，随着科学的发展、各国对科研投入力度的加大，科研论文的数量也快速增长，世界仿佛进入了一个“增量式科学时代”。随之而来的是与日俱增的审稿压力——许多论文压根儿找不到人来审，还有许多论文无法及时获得有价值的评审意见。赞助信息而在计算机科学这种最“年轻”、迭代最快的领域中，这一现象更为突出。各种数据都显示，计算机科学论文的增长正呈现“井喷式”的态势。如ICLR是深度学习的顶尖会议，在2018年时投稿量为960篇，而到了2023年，投稿量已经涨到了4966篇。而CVPR是计算机视觉方面的顶级会议，今年收到9155篇论文投稿，相比于去年有12%的增长。不同于生物、物理等需要长时间积累才“够格”当审稿人的学科，计算机科学尤其是人工智能方向云集着年轻的审稿人：十几年前，博士生审稿已经成为常态；而近几年，本科生也逐渐加入这一队伍。这些“资历尚浅”的学生对新兴领域的了解，甚至比老派的学者教授更为深入，给学科的发展注入了新鲜血液。对于年轻的博士生梁伟欣、张钰晖和曹瀚成而言，参与顶级会议论文审稿已经成为他们的“家常便饭”。据曹瀚成描述，在许多AI会议上，只要你投一篇论文，就意味着要签署“同意书”，志愿成为审稿人中的一员。一场会议下来，除了操心自己的论文，还要审七八篇乃至别人更多的论文，这让所有参与者感受到压力不小。 “在我们的经历中，包括身边的导师、朋友，大家都在抱怨，为什么要审的论文这么多？”曹瀚成告诉《中国科学报》。另一方面，许多论文的作者早已开始对收到的审稿意见“心有不满”。明眼人都看得出来，这是因为有些审稿意见太不走心了。有学者在社交平台上吐槽：很多审稿意见在否定论文时，仅仅给出简单的一句“我不相信”或“我不认为”，却没有提出具体的论据或参考。点击图片看原图学者在社交平台上吐槽赞助信息这位学者还举出例子，以反映评审有多不走心：“这篇论文的优势是X，Y，Z；另外，它也有一些缺陷，分别是X，Y，Z……” 也有学者在知乎上吐槽：点击图片看原图学者在知乎上吐槽 “有时能明显感觉到审稿人没有认真读我们的文章，并且，最后论文的收录与否好像很随机。” 曹瀚成说。他将审稿质量下滑的原因再次归结于论文数量的“井喷式增长”，致使审稿人应接不暇。一次闲聊中，梁伟欣、张钰晖和曹瀚成三人不约而同地想到：或许最新的AI技术，可以帮助打通审稿难问题的“任督二脉”。就这样，三人开始着手验证这个“很容易被想到”的想法。点击图片看原图梁伟欣图源梁伟欣个人网站赞助信息 “AI在主要审稿意见上与人类保持一致” 他们进行的第一项大规模验证是：使用GPT-4对3096篇Nature期刊论文与1709篇ICLR机器学习会议论文进行“AI审稿”。这是一项“宏大”的工程，但操作的思路却很清晰：首先设计一个自动化的框架，将一篇篇论文的PDF版本输入其中，然后为GPT-4构建特定的提示，让它生成对每篇论文的反馈。 “在对比GPT-4与人类给出的审稿意见后，我们得到了一些有趣的结论。”曹瀚成说。首先，GPT-4给出的审稿意见与人类的意见高度重合；其次，GPT-4可以成功识别出论文中比较重大的问题，并在重大意见上与人类审稿人保持一致。以上两点表明，AI已经具有一定的准确性和潜在的实用性。除此之外，GPT-4可以产生“非一般反馈”，也就是说，它不再局限于“走马观花”地产生通用于大批论文的反馈意见，而是针对每篇论文有了个性化的反馈。或许，未来的AI真的可以像人类一样实现“个性化思考”。研究人员还发现了AI与人类的“互补性”——AI与人类给出审稿意见时的侧重点有所不同，如，在论文的研究意义与新颖性方面，AI发表评论的概率是人类的7-10倍。这种差异凸显了未来AI与人类合作的潜在优势。就像深度学习“三巨头”之一，图灵奖得主、美国纽约大学终身教授杨立昆（Yann LeCun）所说的那样：“人工智能不是消灭人类创造力的力量，而是增强人类创造力的力量。” 学科交叉，助力5个月“又快又好”完成研究除了直接使用技术化手段将论文“喂给”GPT-4，这些年轻人还进行了另外一项非常重要的研究：对308名学者进行了用户调查，看看这些学者如何看待AI给出的反馈。点击图片看原图张钰晖图源张钰晖个人网站赞助信息这第二项研究，离不开团队中偏文科、社会学领域人员的灵感与努力，而学科交叉的助力，也是整篇论文能在5个月之内“又快又好”完成的秘诀。 “我们研究的问题本身是一个交叉性非常强的问题，团队中各位作者拥有文理的不同学科背景，大家各有分工。这第二项研究是用户测试，就是收集使用者的主观感受，包括AI审稿是否会对用户产生行为上的影响、情感上的影响，或数据隐私等伦理范畴的担忧。”曹瀚成如是说。曹瀚成表示，用机器解决问题，最终真正的落脚点还是在“人”，与“人”打交道的质性研究法是社会学家的强项。通过问卷的设计和发放，研究团队能真正了解，未来的使用者对AI审稿有何见解。调查发现，无论是经验丰富的研究人员还是新手，均对GPT-4生成的审稿意见有相似的满意度。有41.9%的被调查者认为GPT-4比许多人类的审稿意见更有帮助，50.5%的被调查者表示愿意重复使用该评估系统。有被调查者认为，比起所谓的“领域权威”和人类审稿人，他们更能从AI给出的意见中获益。对于一些来自传统贫困地区的研究人员，他们的论文更可能被期刊退稿，得不到同行评审的资源与机会，AI审稿对他们尤其有帮助。还有被调查者评价道：“AI强调了一些人类审稿人没有指出的局限性，作为作者，我们意识到了这一点，并对此有所期待，但最后将其指出来的不是人类，而是AI，所以这很有趣。”“GPT建议我进行可视化，还要求解决数据隐私问题。这两点都很重要，人类审稿人却忽略了。” 这些被调查者还发现了AI审稿存在的局限性。最主要的局限性有二：产生的反馈有时模糊、不具体，以及无法提供“可操作”的改进建议。目前来看，人类专家的反馈仍然是严格评审的基石。 “我们的研究并非要用AI取代人类审稿人，而是希望对论文作者能有所帮助，毕竟AI永远也不会取代人类的高质量审稿意见。”曹瀚成笑着说，“距离电影中真正的‘通用型人工智能’，我们还有很长的路要走。谁也无法预测《西部世界》是否会变成现实。” 参考资料： 1.https://mp.weixin.qq.com/s/grLKyTZxpFhATJmAXKgcAA 2.https://arxiv.org/abs/2310.01783 3.https://mp.weixin.qq.com/s/edGthcjU43axKMpJbB8Alw 赞助信息您的观点至关重要点击朱笔，直抒胸臆 0 0 Google: super cool 15 暂无相关图集看场时装秀吧 © 2023 八阕之地™ by Towards Digital Group反馈意见｜隐私政策｜使用条款 12345

没有评论:

发表评论

订阅：博文评论 (Atom)

鸿儒私塾纪念馆 取消中小学 开放克隆人

2023年11月24日星期五

没有评论:

发表评论

鸿儒私塾纪念馆取消中小学开放克隆人