中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

自然语言处理专利分析

发布时间:2019-12-16 来源:中国知识产权报 作者:殷其亮,叶盛,罗强
字号: +-
563

国家知识产权局专利分析普及推广项目人工智能关键技术课题组 殷其亮 叶盛 罗强

自然语言处理(NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等进行操作和加工。实现人机之间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。

最近几年,科技巨头和创业公司相继投入资源和成本进行商业化探索。不过,除了语音和机器翻译领域之外,自然语言处理在很多方面的进展并不大。例如识别一个句子当中的动词、名词、形容词,做这些非常简单、非常基础的任务。但是句子识别目前的正确率只有57%。从2009年到2017年间,其正确率提高了不到1%。尽管自然语言处理已经成为人工智能的热门细分行业,但技术本身尚有足够的成长空间,当前仍处于早期阶段。

基于此,国家知识产权局专利分析普及推广项目人工智能关键技术课题组从专用技术和通用技术出发,围绕专利技术发展路线和重要申请人,对自然语言处理产业进行深度剖析,以供行业参考。

词性标注,专利申请增速缓慢

词性标注,是给自然语言中每一个词都赋予其词性标记。正确的词性标注是自然语言处理的一个基本步骤,错误的词性判断可能会导致整个句子的理解错误。

从技术发展路线来看,在1980年前鲜有关于词性标注的专利申请,在1980年至1990年间,出现了基于规则的词性标注方法,这是人们提出较早的一种词性标注方法。基于规则的基本思想是建立标注规则集,并尽可能的使该标注规则集精确,而后使用该规则标注集对待标注语料进行标注,从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强,很难进一步升级,也很难根据实际数据进行调整,在实际的使用场合表现不够好。

1990年后,基于统计的词性标注技术得到发展,隐马尔科夫、条件随机场等模型应用到了词性标注中,全部知识是通过语料库的参数训练自动得到,可以获得很好的一致性和很高的覆盖率。基于统计的词性标注方法因此被广泛应用。但基于统计的方法也同样存在缺点和局限性,例如在建立模型参数时,需要大量训练语料,而训练语料的选择会影响到精度。

由于基于规则和基于统计的方法在处理某些问题时都不能做到尽如人意,于是有人提出了基于规则和统计结合的词性标注方法,主要是将词典与统计模型结合,这样相结合的词性标注方法在很大程度上弥补了单一方法对标注结果的影响,最大程度发挥了基于规则的方法和基于统计的方法的优点,实际上两种方法相结合其实就是理性主义方法和经验主义方法相结合。

近年来,基于人工智能的方法也应用在词性标注中。相对于前面三种方法,该方法具有适应性强、精度高的优点,来自中国的申请人在这方面的研究较多,技术爆发力较强,取得了一系列研究成果。

词语级语义,布局各有侧重

语义分析的目标是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。词汇级语义分析关注的是如何获取或区别词语的语义。

词语级语义分析有多种方式,从发展路线来看,基于词典的语义分析中,词典语义、语法结构、双语词典和Yarowsky算法已经不再产生新的重要相关专利申请。基于实例和统计模型鲜有重要专利申请;由于关键词提取技术的发展,基于义词词典的相关技术在2017年仍有相关的重点专利产生,是将来的发展重点之一。与此同时,基于无监督学习,由于不需要专门的语料库,且具有较强的可扩展性,在大数据、算法和芯片技术的推动下,将成为未来的主要发展方向。

从在华重要申请人来看,专利申请量超过3件的重要申请人共有6位,排名第一位的是齐鲁工业大学,后面依次为昆明理工大学、百度、腾讯、富士通和IBM。国外来华申请人方面,IBM在1999年开始提交了基于双词典的消歧专利申请,随后分别于2011年、2014产生基于上下文首字母缩略词以及基于词袋的专利申请;富士通于2012年提交首件基于双语言的消歧技术的专利申请,随后分别于2012年、2016年提交基于组合概率和针对缩减词的专利申请。昆明理工大学在2008年提交一件基于信息改进的贝叶斯方法的消歧技术的专利申请;腾讯的相关专利申请侧重于利用词语的热度、基于文本的内容,以及基于基本词词典和短语词典领域,同时提交一件与词典构建方面有关的专利申请;百度在2012年提交第一件相关专利申请,研究方向包括多粒度词典的构建、利用用户的选择、基于歧义词消解的搜索,并在2018年提交了一件基于无监督神经网络的词语级语义分析专利申请。

早期,清华大学、北京大学、中国科学院声学所、哈尔滨工业大学、日电(中国)、谷歌等科研院所和企业均在国内进相关专利申请。随着技术的发展以及创新主体的重视,南京邮电大学、华东师范大学、富士康、上海交通大学也进行相关领域研究。2014年以后,苏州大学、南京大学、中山大学等高校也加入到词语级的消歧研发之中。

值得注意的是,虽然中国申请人在各个时期均有参与词语级的消歧研究之中,但除昆明理工大学外,大部分早期实力较强的中国申请人并没有持续地提交相关专利申请。在引领词语级消歧技术发展的无监督消歧中,仅有百度提交了一件相关专利申请。

机器翻译,IBM专利实力突出

在20世纪40年代至50年代,机器翻译相关技术处于理论研究阶段,计算机的发明和信息论的研究为机器翻译奠定了理论基础,这段时期并没有相关专利申请提出。

20世纪60年代开始,进入基于规则的机器翻译系统时代。相关专利开始零星地出现,其中IBM作为计算机领域开拓者在这一时期扮演了非常重要的角色,并积累了大量规则机器翻译系统方面的基础专利。除此之外,大学、政府研究机构是这一时期的重要组成,类似Systran系统的机器翻译产品诞生于大学实验室,并通过政府项目合作而存活并发展。

上世纪80年至90年,是机器翻译系统逐渐成熟并走向市场的阶段,这一时期专利申请量开始爆发,并主要来自于企业。而21世纪以来则显现出互联网企业在这一领域的优势,庞大的互联网语料库及算法积累,使得谷歌、微软、百度等互联网公司超越了IBM、东芝等老牌企业,尤其是近些年来深度学习带来的技术革命,数据资源的重要性开始大大降低,具有革命性的技术近年来都来自于对系统算法框架的创新。

以IBM为例,其在2005年,就已经提交了一件与沃森(Watson)系统基本工作原理非常接近的专利申请,公开了一种实现自动问答的方法,该方法主要通过检索实现各类问答服务。随后,从2006年开始到Watson系统在电视节目击败人类而大热的2011年,IBM公司围绕Watson系统进行了全方位的多面布局。同时,在侧重信息检索方面,先后在2009年和2010年提交了基于智能社区的知识共享方法和基于语料库产生问题答案的系统的专利申请。而在Watson系统大热的2011年,IBM又先后公开了用于自动生成问题答案的计算机实现的方法和对问题输入提供决策支持的方法的专利申请,从综合系统以及回复生成等角度进行完善布局。

总体来说,IBM基于其核心产品Watson系统进行了全方位的技术研究和专利布局。围绕Watson自动问答系统,IBM从综合系统、问句理解、信息检索、回复生成以及知识库构建等多个方面进行技术研发和专利保护,并且随着Watson系统影响力的逐步扩大,其技术研发和专利布局的决心愈来愈强烈,全面性也越来越好,并且还以Watson系统单独成立了独立的事业部门。在人工智能与深度学习应用于自动问答系统的大环境下,IBM也非常重视人工智能技术在自动问答系统中的应用,先后开展了人工智能方向的多方合作,并且进行相关的专利技术布局。而在Watson应用方向,医疗领域是Watson的重要应用方向。IBM基于Watson医疗方向开展了一系列的商业动作和专利布局,并且取得了不错的成绩。

评论

在线咨询