别看人工智能作诗写文章是把好手新测试显示缺乏常识仍是人工“智障”

2024-08-05 本站作者 【 字体:

  自然语言处理(NLP)最近取得了很大的进步,但是人工智能对它所读内容的理解有多少呢?据南加州大学计算机科学系的研究人员称,比我们想象的要少!在最近的一篇论文中,助理教授Xiang Ren和博士生Yuchen Lin发现,尽管人工智能取得了进步,但它仍然不具有生成合理句子所需的常识。

  “目前的机器文本生成模型可以写出让很多人自叹不如的文章,但它们基本上是在模仿训练阶段看到的东西。” Yuchen Lin说,“我们在这篇论文中的目标是研究当前最先进的文本生成模型是否能够写出一些句子,来描述我们日常生活中的自然场景。”

  具体来说,Xiang Ren和Yuchen Lin测试了文本生成模型的推理能力,表明当前文本生成模型与人的表现存在很大差距。给定一组常见的名词和动词,最先进的NLP计算机模型的任务是创建描述日常场景的正确句子。虽然这些模式生成的句子语法正确,但它们常常在逻辑上不连贯。

  这个测试是基于这样一个假设,即如果对常识概念没有更深层次的认识,就不能产生连贯的想法(在这个例子中应该是:“一个人扔了一个飞盘,一只狗抓住了它”)。换句话说,常识不仅仅是对语言的正确理解,它意味着你不必在对话中解释一切。这也是开发可推广的人工智能的一个基本挑战——但在学术界之外,它也与消费者相关。

  如果不了解语言,建立在这些最先进的自然语言模型上的聊天机器人和语音助手很容易露馅。机器人是否能更多地出现在人类环境中也是至关重要的。毕竟,如果你让机器人热牛奶,你希望它知道你想要的是一杯牛奶,而不是整盒牛奶。

  “我们的研究还表明,如果一代模型在我们的测试中表现更好,它也可以有益于其他需要常识推理的应用,比如机器人学习。” Yuchen Lin说,“机器人需要了解我们日常生活中的自然场景,然后才能做出合理的动作与人互动。”

  常识推理,也就是利用世界的基本知识进行推断的能力——就像狗不能互相扔飞盘一样——几十年来一直人工智能研究人员前进路上的障碍。最先进的深度学习模型现在可以达到90%的准确率,所以NLP似乎已经接近了它的目标。

  但是,作为自然语言处理方面的专家,Xiang Ren和他的学生Yuchen Lin需要更多的证据来证明这一统计数据的准确性。他们的论文发表在11月16日的自然语言处理(EMNLP)实证方法发现会议上,他们对基准的有效性提出了挑战,因此,也对该领域实际取得的进步水平提出了挑战。

  “人类通过学习理解和利用他们在周围环境中认识到的常见概念来获得造句的能力。” Yuchen Lin说。

  “获得这种能力被认为是人类发展的一个重要里程碑。但我们想测试一下,机器是否真的能够获得这种生成常识的推理能力。”

  为了评估不同的机器模型,他们开发了一个受限的文本生成任务,称为CommonGen,它可以作为测试机器生成常识的基准。研究人员展示了一个包含35141个概念和77449个句子的数据集。他们发现,即使是表现最好的模型,准确率也只有31.6%,而对人类而言,准确率为63.5%。

  “让我们惊讶的是,这些模型想不起一个简单的常识,那就是‘人扔飞盘’应该比‘狗扔飞盘’更合理。” Yuchen Lin说,“我们发现,即使是最强的T5模型,在使用大数据集进行训练后,仍然会犯愚蠢的错误。”

  研究人员说,似乎之前的测试并没有充分挑战这些模型在常识方面的能力,而是模仿了它们在训练阶段所看到的。

  “之前的研究主要集中在区分常识上。” Xiang Ren说,“他们用多项选择题来测试机器,而机器的搜索空间很小——通常是四五个候选。”

  中欧体育最新地址

  例如,区分常识测试的典型设置是多项选择题的回答任务,例如:“成年人在哪里使用固体胶水?”A:教室B:办公室C:书桌抽屉。

  当然,答案是“B:办公室。”即使是计算机也能毫不费力地解决这个问题。相比之下,生成式环境则更加开放,比如CommonGen任务,模型被要求从给定的概念中生成一个自然的句子。

  Xiang Ren解释说:“广泛的模型训练,很容易在这些任务有很好的性能。与那些有区别的常识推理任务不同,我们提出的测试侧重于机器常识的生成方面。”

  Ren和Lin希望这些数据集能成为一个新的基准,对未来将常识引入自然语言生成的研究有益。事实上,它们甚至有一个排行榜,描述了各种流行模型的得分,以帮助其他研究人员确定它们在未来项目中的可行性。

  “机器人需要了解我们日常生活中的自然场景,然后才能做出合理的动作与人互动。” Lin说。

  “通过向机器介绍常识和其他特定领域的知识,我相信有一天我们会看到像电影《她》(Her)中的萨曼莎(Samantha,‘寡姐’斯嘉丽声音出演)那样的人工智能代理产生自然反应,并与我们的生活互动。”

  ×分享到微信朋友圈打开微信,点击底部的“发现”,使用“扫一扫”即可将网页分享至朋友圈。

  《静音》是一部 Netflix 电影。尽管 Netflix 过去一年在原创电影上的表现并不如预期,但是《静音》仍让人颇为期待

  最近,美国最大的经济研究机构——全国经济研究所(NBER,全美超过一半的诺奖经济学得主都曾是该机构的成员)发布了一份报告,全面分析了 1990 到 2007 年的劳动力市场情况。\n

  坏机器人制片公司最新的一部电影名为《霸主》(overlord),背景设置在二战时期,很可能是一部在半遮半掩中秘密制作的科洛弗电影系列。

  我们都知道,到处都在重启;我们也知道,如果有钱,啥都能重启。所以,会不会被重启算不上是个问题,只能问什么时候会被重启。自然而然地,世界各地的各种重启现象衍生出了一个有趣的猜猜游戏:哪一部老作品会是下一个接受这种待遇的?\n

阅读全文