回顾所来径,挑战即成就—专访陈信希

回顧所來徑,挑戰即成就—專訪陳信希

在人工智慧研究领域中,「自然语言处理」对一般人而言,可能是相对陌生的一块,但这项技术专注于开发电脑处理人类语言(即所谓「自然」语言)的能力,是研发高等人工智慧时,不可或缺的关键技术。以下我们将请自然语言处理专家陈信希教授,与我们分享研究过程里重要的思考与观察所得。

自然语言处理:横跨电脑与人沟通的可能

回顾所来径,挑战即成就—专访陈信希「自然语言处理」是一门实现「电脑」与「人」彼此沟通的学问,主要的目标,在于让电脑听得懂、看得懂人类的语言文字。在人工智慧兴起的时代,它是发展高等人工智慧的重要技术之一──毕竟电脑若无法理解人类的语言,或者无法将它得到的资讯吸收转化,以一般人能够理解的方式分享,我们连人机沟通都做不到,更遑论获得个人化的精緻辅助。从自己的研究经验出发,对于「人工智慧与真人互动之间的差异何在」这个或许存在听众心中的疑问,专攻自然语言处理的陈信希,提出了相当犀利的观察。

「当人与人沟通的时候,双方领会的意思不同,就会发生理解的歧义。」他说,让机器能了解人类的语言,使电脑得以人类的语言,直接同使用者互动,是这个技术的终极目标:「我们可以发现,除了语言,在日常生活中人们也会透过不同的方式,如手势和脸部表情,传达或者辅助传达讯息,就是为了让对方的理解最佳化。而人机沟通技术,同样会面临歧义的考验,我们的任务,就是不断思考如何让电脑理解到正确的意思。」

这显然是一个漫长而困难的工作,会不会因此感到沮丧或孤独呢?

对陈信希来说,克服种种障碍,逐步达到人机之间完全的理解,却也正是乐趣所在。舆情分析(意见探勘)技术从无到有的长期发展,就是最好的例子。

从零开始:「意见探勘」技术的蛰伏与盛放

在访问过程中,陈信希一直是相当平实的讲述者,没有太多戏剧性的陈述,或跌宕起伏的语调。过去「自然语言处理」在台湾并不很受重视,仅有少数研究单位和公司投入发展,近年来人工智慧兴起,自然语言处理技术和应用成为热门领域之一。当我们问及当年该领域在台湾尚属冷门学科时,他如何自处,又怎样看待自己的研究成果,他提到自然语言处理的研究议题和应用相当广泛,就举其中一项「意见探勘技术」的发展为例,谈起自己的学思历程。

所谓意见探勘,就是透过统整与分析网路上零碎四散的大量意见,得到特定人群对某个议题或对象的看法,近年来被大量用于网路民调、政策意向探询等方面,蔚为显学。然而,多数人恐怕不知道两件事:首先,这项「全新」出台的技术,其实学界早在2003年便着手研发了;其次,自然语言处理技术对此介入甚深。

「在自然语言处理技术里,有一个应用叫做意见探勘,比较大众的说法叫『舆情分析』,我们从2003年就开始做了。」陈信希说到,「人们很容易写下某个产品、餐厅、住宿等等的使用心得,但当其他的消费者想要检索的时候,就不是那幺容易。」在蒐集与统整意见方面,随着云端技术的开发,运算速度飞跃性的提高,渐渐已不成问题,他表示,反而是有效意见的筛选,才是舆情分析在应用上的最大难关。当我们要透过意见探勘技术,从大量资料里抽取有用的资讯时,该怎幺知道意见真假?如何排除俗称「叶佩雯(业配文)」的干扰性意见,从而提升分析的準确率?

为了让我们了解其中的门道与挑战,陈信希于是深入浅出地,向我们解释起自然语言处理技术的演进。在这个技术发展的前期,研究人员採取「规则式」的办法,尝试整理出语言规则并输入电脑,让机器理解人类语言,但为了提升覆盖率,学者接着开始发展「统计式」的模型,透过语言学家分析与标记大量语料,让电脑通过统计的方式自动演算,生成语言使用规则。但即便如此,仍然无法有效处理语言长距离相关和词彙关联度等问题。

所幸在2013年左右,技术发展又有了新的突破:「语言分散式表现」模型,也就是如今正热门的「深度学习」技术。由于词彙的意义,总是依赖上下文来标定,学者们于是想到,可以利用庞大的语料资源进行自动演算,将各个「词彙语意」之间的亲疏关係,透过「向量」表示出来。以低维度稠密向量空间来呈现的话,即越是靠近的双方,便具有越相近的意思。透过这个方法,自然语言处理技术有效突破了词彙语法和语意表现的难题。

于是,我们可以清楚的看到,在这十五年间研究人员如何精益求精,逐渐克服人类某些特殊的语言表现(如字面意义正好与实际讯息颠倒的反讽),以及人类意见陈述的複杂性,就此让意见探勘的技术应用更臻成熟、準确。

陈信希自信的表示,求学与治学的孤独,从来不会令他心生沮丧。因为这一路走来,每一个碰上的难关,与克服挑战的过程,已带给了他一次又一次、无与伦比的成就感。

(本文为教育部「人工智慧技术及应用人才培育计画」成果内容)