教人工智能幽默

浏览次数:23 时间:1970-01-01

我们在我们的机器上大喊大叫 - 汽车发生故障,电视播放我们失败的车队。但现在,我们的机器了解我们。他们在回话。他们在厨房为我们挖出食谱,驾驶我们的汽车旅行,在互联网搜索引擎上完成我们的句子,以及翻译外语。

为此,我们有计算语言学,也称为自然语言处理(NLP),感谢。这是计算机科学教授A. Bartlett Giamatti的Dragomir Radev的研究重点之一。这是一个计算机科学,语言学和人工智能交叉的研究领域,从苹果的Siri到自动化的客户服务,它在我们的生活中越来越突出。

简而言之,NLP是训练计算机以理解人类语言的一种手段。这不是件容易的事情。人类的语言是流畅的;单词随着时间或上下文而改变。举个例子,“简而言之”这个短语。它可以是“用几句话”,或者“在一种水果的坚硬外壳内发现的可食用核心”。区分这两种非常不同的含义很容易我们,但可以混淆到一台电脑。自然语言是为人类思想而设计的 - 措辞可能不精确,意义仍然很清楚。使用正式的语言 - 例如计算机代码 - 每个角色都需要按顺序排列,否则一切都会失控。 NLP填补了这一空白。

Radev的工作采用了许多计算技术,包括人工神经网络,也称为深度学习。实质上,计算机通过提供大量广泛的数据来学习识别复杂模式。单词,短语,语法和语法规则被分配数学值。这个想法并不新鲜,但随着数字数据存储和计算机处理能力的显着提高,它在过去的几十年中逐渐增加。如果您最近使用过Google Translate,并且注意到结果的速度和准确性有所提升,那是因为该公司转向了神经网络系统。

有人认为,电脑并不是真正的学习语言,因为它们并不像人类一样学习语言。幼儿学会不是通过阅读大量文本集合来说话,而是通过与所有五种感官的周围世界交流。这个区别并不涉及Radev。

“它不影响我们如何进行研究,因为我们没有处理人类,”他说。 “我们如何教语言到电脑并不一定像人类理解语言的方式一样。当你搭建一架飞机时,你不会说'鸟儿在拍翅膀,我们建造能够拍翅膀的飞机'。这不是怎么做,至少在实践中不这样做。我们只是想让它们飞起来,不管它们的翅膀是否移动。“

作为这些学科兴趣水平的一个标志,上学期,132名学生报名参加了Radev的NLP课程。此前,他在一个大型开放式在线课程(MOOC)中向10,000多名学生教授NLP。今年秋天,他教授了一门关于人工智能的课程,这门课程是用来教授计算机执行人类认为聪明的任务的研究。课程涵盖逻辑,学习和推理。它包括具有挑战性的任务,要求学生构建可以玩像Othello和Go这样的双人游戏的系统,解决迷宫问题,模拟自动驾驶汽车,使用神经网络翻译文本,以及学习与环境的互动。这是现在计算机科学系最大的班级,本学期有超过200名在校学生。

通过另一个项目,AAN(All About NLP),Radev还帮助那些对NLP感兴趣的人在这个主题上越来越多的研究中寻找方向。他和来自LILY实验室(耶鲁的语言,信息和学习)的学生收集了超过25,000篇论文,3000多篇关于NLP和计算语言学的教程,调查,演示,代码库和讲座。最终目标是使用NLP自动为寻求它的人创造教育资源,并引导他们朝正确的方向发展。它包括单篇论文摘要,算法的多源描述,研究主题调查以及用户对教学资源的建议。

向计算机教授幽默

计算机可以计算出星系是如何形成的,筛选难以想象的数据量并计算一个超过1700万位数的素数。但他们能讲一个笑话吗? Radev说可能暂时没有,但他仍然会尝试。

作为正在进行的项目的一部分,Radev一直与最近退休的纽约客漫画编辑Robert Mankoff一起工作。具体来说,他们专注于杂志的每周字幕比赛,在这个比赛中,读者为漫画家的插图提供字幕。标题判断最有趣的胜利。

Radev正在与纽约客一起提炼它收到的每周标题比赛提交的数千份意见书。礼貌纽约客。

该杂志每周都会收到成千上万的来自漫画家的意见。然后编辑们将这些文章推介给三位入围者,由纽约客读者评选。这是一个艰难的过程,或许可以在NLP的帮助下变得更容易。 Radev解释说,每次比赛都基于相同的想法激发了多个提交。举例来说,一个例子可能会激发许多意见,其中关于马站在酒吧的文字也有类似的表现。与此同时,在同一张照片中服务这匹马的调酒鹅产生了不同批次的密切相关的笑话。

哥伦比亚大学和雅虎实验室的Radev,Mankoff和合作者设计了一个计划,旨在确定提交的标题中的主题。

Radev说:“目的是让编辑不必每周阅读5,000份提交内容。” “如果100个玩笑都一样,他们只能读一两个。如果基本想法很有趣,那么他们可以深入挖掘并挑选出具体的想法。如果不好笑,他们可以跳过整个集群。“

从这个分支开始,计算机会生成自己的有趣标题。他们遇到的一个早期绊脚石是,虽然计算机已经非常擅长挑选照片中的物体,但插图仍然给他们带来了很多麻烦。为了解决这个问题,他和他的学生用程序可以识别的语言描述了约500幅漫画的图像。

“现在,通过查看漫画的描述和已经提交的意见,提出新的笑话可能会容易得多 - 因为这是一个很好的起点,”他说。 “我们可以将两个字幕合并为一个字幕,或者通过添加几个字来修改现有的字幕,使其听起来更有趣。”

这是一个非常棘手的挑战。到目前为止,计算机已经击败了人类在国际象棋,古代游戏,甚至琐事显示危险。但幽默是一种独特的人性特征,Radev认为这一结果不会让任何漫画家任何时候很快从工作中解脱出来(对于这一点,他认为自动翻译将取代他们的同行)。 “它可能会也可能不会工作,但能够看到计算机是否可以理解纽约人的漫画并获取笑话将是非常有趣的,”他说。

Radev对所谓的计算创造力感兴趣。正是这样,Watson,Siri和Alexa等程序才能提供正确的答案,甚至显示出一点个性。已经有人试图让我们的设备变得有点笨重。例如,Siri偶尔会给出一些温柔的嘲笑:Q:“Siri,生命的意义是什么?”A:“42”(参考经典着作“银河系漫游指南”)。

“但它并没有真正的幽默感 - 这是人类预先编制的,”拉德夫说。 “未来有趣的是想出能够理解并生成有趣文本的系统。”

指导下一代计算语言学家

拉德夫在保加利亚长大,能说流利的几种语言。 “我喜欢多么相似,但语言多么不同,”他说。 “事实上,有规则,但规则并不严格,这使得它更有趣。我不喜欢纯数学,因为事情太严格了。语言在正中间的某个地方。“

2006年,拉德夫共同创办了北美计算语言学奥林匹克竞赛(NACLO),这是一次年度竞赛,汇集了来自美国各地的中学和高中学生。除了识别具有语言学人才的学生之外,还将其引入计算语言学领域。

NACLO拥有超过20,000名学生参与者。与许多其他与计算机科学相关的高中活动不同,NACLO中约有50%的参与者是女性。顶尖决赛选手继续参加国际语言学奥林匹克竞赛。今年的NACLO(包括耶鲁在内的全美200个地点举办)派出8名参加者参加8月份在都柏林举行的国际比赛。

NACLO的参与者会遇到一系列用各种语言解决的问题,通常涉及翻译。有些人呼吁采用传统的语言学方法,另一些人则呼吁计算来解决问题。逻辑和推理是参赛者唯一需要的技能。拉德夫说,他和其他组织者认识到,语言学很少在高中教授,所以问题的建立方式不需要事先知道特定语言或语言学。

问题通常基于相对晦涩的语言。例如,可以在Taa中写一套句子 - 在博茨瓦纳和纳米比亚约有2600人讲话 - 每个人后面都有英文翻译。根据他们从这些句子中可以推断出的模式,学生们必须翻译下一组Taa句子,而不需要附带英文翻译。

“我们使用图表使得高中生更容易理解,”Radev说,他在2015年被任命为计算机机械协会会员,这是计算机科学的最高荣誉之一。 “'这是这个词,这个词,这个词的语义表达,'然后你必须弄清楚这个方法是如何工作的,并将一些额外的词翻译成这些表达。”

将“astro”这个单词作为纵横字谜提示。

今年耶鲁大学语言学专业毕业的Tom McCoy开始参加NACLO的比赛,当时他是一名住在匹兹堡的高中生。他当时对计算语言学一无所知,但他喜欢拼图和破译,而他的妹妹建议他试试比赛。拉德夫是他的教练之一。

“他真的很棒,”McCoy说。 “我认为描述他的最好的短语是'自然的力量',他只是做了很多事情,并且都做得很好。他是非常活跃的教授/研究员,但他也设法为奥林匹克提供了很多时间。“

在加入NACLO之前,McCoy致力于研究生物学,这使他得到了不同的课程。今年秋天,他进入了着名的博士学位。约翰霍普金斯大学认知科学专业,主修计算语言学。

2017年1月来到耶鲁后不久,Radev为他的LILY实验室招募了学生。他迅速组建了一个耶鲁大学学生团队,开发神经网络系统,用于总结相关新闻文章。这篇论文的第一作者是Michihiro Yasunaga,YC'19,于8月在温哥华着名的计算自然语言学习会议上被接受发表。由拉德夫领导的LILY(耶鲁大学语言,信息和学习实验室)实验室现在包括六名博士生和十几名耶鲁大学本科生。 LILY团队正在编写一些关于调查生成,医学文件理解,跨语言信息检索和对话系统的新文章。

合作

NLP是一个非常适合跨学科合作的研究领域,Radev并没有浪费任何时间。即使在他1月份抵达耶鲁大学之前,拉德夫还与来自其他领域的几位教师进行了联系,包括来自医学院,人文学院和社会科学专业的合作人员。

“现在人们普遍意识到自然语言处理和其他工具可以对其他领域有所帮助,”他说。 “十年前,其他领域的许多人甚至不知道你可以做这样的工作。如果我们与政治学或医学领域的人们合作,他们会从中得到一些东西,因为现在他们可以用以前不可能的方式分析数据。而计算机科学人员可以从有趣的数据集中找出一些有用的数据来处理他们的理论。“

例如,政治科学家可以利用这项技术来分析当选官员的言论和文本。例如,对辩论中的策略和言辞进行的客观分析可以帮助辨别候选人是否吸引民族主义或对经济的担忧。多久使用名称作为辩论策略? Radev的学生之一Lincoln Swaine-Moore分析了上个学期官员和参与者的演讲之间的关系。

“例如,如果参议员从制药行业获得一定的资金,这是否意味着他们会在演讲中更多地谈论药物问题?”

医疗保健和医学领域也从自然语言处理中受益匪浅。

“另一种可能性是看医学院的推荐信是否有偏差,”他说。 “有研究表明,申请某些工作的女性受到不同的待遇。人们更频繁地打断他们,或者他们以负面的方式看待某人的某些特征 - 他们可能会用'火热'这个词,而一个男人会用一个温和的词来形容。“

他还与耶鲁大学医学院教授哈伦克鲁姆霍尔兹讨论了可能的合作。 Krumholz,Harold H. Hines Jr.医学教授,耶鲁开放数据访问项目主任以及耶鲁大学研究计算中心的教授联合主任说,护士的笔记,放射学报告以及其他许多文档已经创建医药领域的一大堆非结构化数据。 Radev的专业知识可以帮助理解这一切。作为一个例子,他指出了迫使患者按照1至5的等级对症状进行分级的形式。

“我们给他们五个选择,但事实是,他们必须告诉我一个故事,让我了解他们的感受,”Krumholz说。 “圣杯正在弄清楚如何将医学中无处不存在的大量无关紧要的数据转化为可以激发新知识和新见解并加以关爱的东西。”

这意味着远离需要人们像电脑一样交谈和思考的系统。他说,相反,我们需要电脑来提供人们自然交流方式的见解。这是一个雄心壮志,不久前,似乎遥不可及。随着像拉德夫这样的人的工作,它开始发生。

“这就是为什么我立刻认为他会成为这样一个伟大的加法,为什么我会寻找与他合作的方式,”Krumholz说。 “他是我们教师队伍中的一个壮观的成员,并为我们提供了更多世界级的专业知识。当像这样的人到达校园时,你会立即被吸引,试图看看是否有合作的机会。“

来源:耶鲁大学William Weir

Copyright © 2017 pk10推算冠军号 版权所有