麻省理工和香港大学的研究生们开发了一个算法,让AI在文本分类和推理问题上的正确率从80%下降到10%。
这个模型的名字叫Textfooler,通过生经过微调的句子,来对自然语言文本分类和推理进行攻击。
比如在著名的分类任务影评判断中,AI的任务是去判断一句影评是肯定性的还是否定性的。
在推理任务中,AI需要判断在一个句子和情境之间的关系,是蕴含,中立,还是矛盾。
此外,研究团队还请人类被试阅读这些句子,以确认它新生成的句子和原句接近。
他们从进行实验的两个数据集MR dataset和WordLSTM中各挑100个例子,请被试行进行打分。相似pg电子平台为1,有歧义为0.5,不同为0,最后得到的分数分别为0.91和0.86。
处理文本的AI越来越多地被用来判断应聘者,评估医疗报销,处理法律文件。因此,研究者认为,AI的这一缺陷要引起重视。
如果用于金融或医疗保健中的自动化系统,即使是文本上微小变化,也可能造成很多麻烦。
加州大学欧文分校的助理教授Sameer Singh说,这个调整文本的方法“确实非常有效地为AI系统生成了良好的对手” 。
但是他又表示,这个方法在实践中很难实施,因为它涉及反复探测AI系统,这可能会引起怀疑。
加州大学伯克利分校的教授Dawn Song专门研究AI和安全性。她说,这一研究是不断发展的工作的一部分,该工作表明如何欺骗语言算法,并且各种商业系统可能容易受到某种形式的攻击。
这项研究由清华大学、香港大学、新加坡科技研究院的研究员共同完成。通讯作者有两位:
Di Jin,本科毕业于清华大学计算机学院。2020年获得MIT计算机科学博士学位。目前是MIT的计算机科学与人工智能实验室的助理研究员。
金致静,高中毕业于上海华东师大二附,本科毕业于香港大学,目前正在申请博士学位。已经在顶级会议NAACL,EMNLP,AAHPM,AAAI上发表了4篇NLP论文。
2.27第一期课程,来自NVIDIA开发者社区的何琨老师,将带领大家学习如何利用NVIDIA迁移式学习工具包实现实时目标检测。
内参新升级!拓展优质人脉,获取最新AI资讯&论文教程,欢迎加入AI内参社群一起学习~
原标题:《替换一下同义词,AI就把句子意思弄反了华人研究者揭示NLP模型脆弱性》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。