西雅图的研究人员介绍了一个新的人工智能大挑战,称为图灵建议,它的中心是创建语言模型,为人类使用真实世界的语言提供有用的建议。

图灵建议挑战是基于动态Reddit建议数据集。 RedditAdvice是为应对挑战而创建的,它是过去两周中共享的一组众包数据建议,在Reddit子社区中获得了最多的支持。 为了通过挑战,一台机器必须提供帮助或优于流行的人类建议的建议。

作为图灵咨询启动的一部分,研究人员还发布了一个静态的Reddit咨询2019数据集,用于培训提供咨询的人工智能模型,其中包括来自Reddit子社区人民共享的188000种情况的616000条建议。

初步分析表明,先进的模型,如谷歌的T5,一个具有110亿参数的模型,去年秋天引入,只写建议主持人发现至少有9%的情况下与人类的建议一样有帮助。 研究人员还评估了Grover变压器模型和TF-IDF的版本.. 这项研究没有评估像谷歌的BERT这样流行的双向NLP模型,因为它们通常被认为在生成文本方面比左对右模型更糟糕。 关于人际关系、法律事务和一般生活的人与机器咨询演示可在网上查阅。

最近发表的一篇关于图灵建议的论文写道:“今天最大的模型在REDD IT ADVICE上挣扎,所以我们很高兴看到新模型得到了什么发展。 “我们认为,存在一个深刻的潜在问题:人类在现实世界中如何使用语言与我们的评估方法可以衡量什么之间的差距。 今天的主要范式是研究静态数据集,并根据机器输出与预定义的正确答案的相似性对机器进行分级。

“然而,当我们在现实世界中使用语言来相互交流时——比如当我们给出建议,或者把一个概念传授给某人时——很少有一个普遍正确的答案可以与我们想要实现的一个松散的目标相比。 我们引入了一个框架来缩小基准和现实世界语言使用之间的差距。

作者说,在图灵建议挑战中创建人工智能的进展可以使人工智能更好地为人类提供建议或充当虚拟治疗师。

为了确保结果与现实世界的语言使用保持一致,小组选择了一种动态评估方法,在最近两周内,他们从Red dit子社区收集了200种情况。 他们选择建议作为一个测试场景,因为它是所有人天生熟悉的东西,它与核心NLP任务重叠,如阅读理解。

图灵建议挑战是华盛顿大学和艾伦人工智能研究所的工作,并在上周发布的一篇研究论文中详细介绍了预印存储库arXiv上周发表的题为“根据真实世界语言使用评估机器”的研究论文。华盛顿大学副教授阿里·法哈迪(Ali Farhadi)也是合著者,他的人工智能创业公司Xnor最近被苹果收购。 法哈迪也是艾伦研究所PRIOR团队的领导。