对话作为界面:5 种类型的聊天机器人

聊天机器人有哪些不同类型?哪些是目前已有的,哪些是未来即将出现的?我们将如何在日常生活中使用它们?

多年来,我们与计算机的互动方式发生了巨大变化。我们从拨动开关到堆叠打孔卡、在纸质文件上打字,现在则使用触摸屏操作桌面上的对象。

每次转变都为我们提供了更便捷的交互方式,以及思考这种交互的新比喻(开关、直接命令、桌面)。但是,语音识别的进步正在彻底改变游戏规则。 

Siri小娜亚历克斯谷歌现在让我们体验了直接向机器传达目标和需求意味着什么。就在最近,Facebook 和微软都宣布将转向对话界面,而亚马逊则增加了对 Alexa 的支持生态系统,而 Siri 的创造者宣布维夫作为一个新的平台,它将成为“万物的智能界面”。我们可以假设苹果和谷歌都将分别扩大 Siri 和 Google Now 的覆盖范围。

对话作为一种界面,是机器使用我们已经非常熟悉的人类工具——语言与我们交互的最佳方式。

到目前为止,我们使用的大多数语音驱动系统主要有两种类型:1) 触发任务模型和 2) 呼叫和响应系统。第一种系统,即触发任务模型,实际上可以为您做事。第二种系统只是作为一种娱乐来互动。

展望未来,我们可以预期对话系统将具备五种核心功能和交互动态。除了刚才提到的两种模型外,我们还将看到支持搜索、复杂交互任务和交互式信息访问的系统。有些系统已经存在,有些即将出现,有些已经出现但我们还不知道。

聊天就是聊天

很多聊天系统并不注重完成订单,而更注重娱乐。伊丽莎格挡这些系统根据其响应与用户输入文本的相关程度的统计模型来生成响应。

如今,这种方法的现代版本包括使用机器学习来构建更多相关响应。但最终,这些系统既不知道你在说什么,也不知道他们在说什么。他们只知道他们之间可能存在良好的关系。

和它的前身,小策就是这种模式的典型例子。后者在中国取得了成功,拥有数百万满意的用户。而 Tay 则在 4chan 用户的怂恿下,在不到一天的时间里变成了一个厌恶女性的种族主义者。

Tay 几乎立即被关闭,这是一个明显的例子,表明无法真正理解自己所说内容的系统可能会带来极大的问题。它们是鹦鹉,鹦鹉可以被训练说几乎任何话。虽然与鹦鹉交谈可能很有趣,但你不会希望它安排你去巴巴多斯的旅行。 

我们将看到,这些交互系统对世界和您的了解越多,它们就会变得越强大和可靠。

触发任务模型

从本质上讲,Siri 及其同类产品都是关键字响应系统。它们首先使用语音识别来识别您说的单词,然后根据特定触发词的识别,将剩余的单词传送给一组程序中的一个,这些程序将处理与触发器相关的任务。您可以要求它们“播放”音乐、“打开”灯、请求“Uber”接送或订购“Domino's”披萨。在它们所知道的术语范围内,这些系统可以提供令人难以置信的服务。

但是,为了通过这种互动获得披萨,系统已经需要知道你想要哪种披萨。对话只是按下“订购”按钮的另一种方式。整理更复杂的订单或更改你的偏好超出了这些系统的能力范围。他们知道你说了什么,因此知道该做什么(“给我我的标准订单。”)。

对于更大的复杂性,他们还需要使用订单过程中可能出现的所有可能的信息选项进行编程,然后使用这些信息来管理更长的交互(“您想要薄皮还是厚皮?”)。

搜索

当 Siri 无法识别出你查询中的任何触发词时,她会根据这些词来搜索可能的答案。由于我们已经习惯了动态搜索,所以这种回退似乎相当自然。我们接受这样一种观点,而且这是正确的,即当系统无法弄清楚我们真正想让它做什么时,它至少会尝试为我们找到与单词相关的信息,即使不是与我们刚刚说的话相关的含义。

当然,这种方法仅支持有限的交互。最好的理解方式是,一旦搜索结束并提供响应,这些系统往往会忘记它们刚刚告诉你的内容。搜索引擎本身可能会保留整体偏好,但这些交互系统不会。

为了执行更复杂的任务,这些系统需要记住更多你说过的话和你想要的东西。

复杂任务交互

Viv 等新兴系统以及微软和 Facebook 试图支持的模式的前景是,它们将能够帮助你完成远为复杂的任务。这些系统不会帮你一遍又一遍地订购相同的披萨,而是帮你安排晚上的外出活动、计划和安排假期,或者帮你进行财务规划。

这些与各种移动助理的现状之间的区别在于,它们将了解任务、执行任务所需的信息,并能够跟踪您已传递给它们的信息。它们将了解礼宾、旅行社和理财规划师。然后,它们将知道如何利用这些知识来管理对话。

这些系统知道他们需要知道什么才能帮助你(例如你想去哪里度假、什么时候想旅行、有多少人、想花多少钱、有多少个孩子),然后利用这些信息来支持对话。

到目前为止,为支持这种任务复杂度而提出的模型都倾向于高度结构化的交互,这种交互更像是在调查中回答一系列问题,而不是进行对话。幸运的是,人工智能领域一些最聪明的人正在研究这种模型。他们的目标是建立一个模型,在这个模型中,系统的知识差距成为交互的驱动因素,而不是你在脚本中的位置。

随着这些模型的进步,我们将看到它们是否能够突破高度专业化任务和脚本交互的狭窄范围,进入更广泛控制复杂系统的领域。

交互式信息访问

人们使用语言的最自然方式之一就是分享信息。这种分享的动态是来回传递信息,在回答问题、评论或澄清请求时提供少量信息。

在绩效评估期间,我们与医生、财务顾问甚至老板的对话都是为了揭示重要且有影响力的信息。我们并没有试图完成诸如订购食品杂货之类的“任务”。相反,我们试图以一种让我们能够最好地理解的方式获取对我们有意义的信息。 

这种互动定义了即将出现的最终类型的对话界面。与能够访问我们世界数据的系统进行对话互动将使我们能够了解我们的工作、业务、健康、家庭、家人、设备和邻居的状况。

这个清单是无穷无尽的。

这些系统不仅能进行搜索,还能结合数据分析来确定数据定义的事实,并生成自然语言,从而实现更人性化的互动。与大多数其他对话系统不同,这些系统实际上知道你在问什么,因为它们知道自己在说什么。 

虽然这些系统比狭隘的任务导向或搜索系统更雄心勃勃,但交互式信息访问的基础已经以数据驱动的高级自然语言生成系统的形式存在。这些系统已经将数据映射到含义和语言,以生成它们的叙述。将它们用于交互式信息访问归结为让它们等待它们可以回答的问题,而不是像以前那样生成完整的文档它们如今仍在使用

这就是获取报告和进行对话的区别。信息是相同的,但互动更自然。

针对不同任务使用不同系统

这些不同的对话界面方法各有优缺点,因此在聊天生态系统中扮演着不同的角色。在考虑哪种模型可能适合您的需求时,无论您是自己构建模型还是指示团队构建或购买模型,您都需要首先考虑要支持的任务的性质。

如果您想要支持诸如订购、规划或安排复杂系统之类的任务,您就不想引入搜索或聊天式系统。同样,如果您想要支持对数据驱动信息的访问,您就不想选择任何一种以任务为中心的模型。您要确保您没有试图修改一个已经学会了厌恶女性的聊天式系统来帮助您进行财务规划或解释谁在您的销售团队中表现良好。

您希望与一个知道正在谈论什么的系统进行对话。