首席律师徐新明

13910160652

ciplawyer@163.com

关于我们

在线咨询

专利

更多 >>
商标

更多 >>
版权

更多 >>
商业秘密

更多 >>
反不正当竞争

更多 >>
植物新品种

更多 >>
地理标志

更多 >>
集成电路布图设计

更多 >>
技术合同

更多 >>
传统文化

更多 >>

点击展开全部

律师动态

更多 >>

2025.01.21

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

2024.03.18

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

2024.11.04

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

更多 >>

审判动态

更多 >>

案例聚焦

更多 >>

法官视点

更多 >>

裁判文书

更多 >>

法律宝库

更多 >>

中国法库

法律法规立法动态政策指引
国际法库

他国法律国际公约

返回列表

首页 > 实务探讨 > 行政机关 > 专利

自然语言处理专利分析

发布时间：2019-12-16 来源：中国知识产权报作者：殷其亮,叶盛,罗强

标签：专利技术自然语言处理

字号: +-

563

国家知识产权局专利分析普及推广项目人工智能关键技术课题组殷其亮叶盛罗强

自然语言处理（NLP），是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等进行操作和加工。实现人机之间的信息交流，是人工智能界、计算机科学和语言学界所共同关注的重要问题。

最近几年，科技巨头和创业公司相继投入资源和成本进行商业化探索。不过，除了语音和机器翻译领域之外，自然语言处理在很多方面的进展并不大。例如识别一个句子当中的动词、名词、形容词，做这些非常简单、非常基础的任务。但是句子识别目前的正确率只有57%。从2009年到2017年间，其正确率提高了不到1%。尽管自然语言处理已经成为人工智能的热门细分行业，但技术本身尚有足够的成长空间，当前仍处于早期阶段。

基于此，国家知识产权局专利分析普及推广项目人工智能关键技术课题组从专用技术和通用技术出发，围绕专利技术发展路线和重要申请人，对自然语言处理产业进行深度剖析，以供行业参考。

词性标注，专利申请增速缓慢

词性标注，是给自然语言中每一个词都赋予其词性标记。正确的词性标注是自然语言处理的一个基本步骤，错误的词性判断可能会导致整个句子的理解错误。

从技术发展路线来看，在1980年前鲜有关于词性标注的专利申请，在1980年至1990年间，出现了基于规则的词性标注方法，这是人们提出较早的一种词性标注方法。基于规则的基本思想是建立标注规则集，并尽可能的使该标注规则集精确，而后使用该规则标注集对待标注语料进行标注，从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强，很难进一步升级，也很难根据实际数据进行调整，在实际的使用场合表现不够好。

1990年后，基于统计的词性标注技术得到发展，隐马尔科夫、条件随机场等模型应用到了词性标注中，全部知识是通过语料库的参数训练自动得到，可以获得很好的一致性和很高的覆盖率。基于统计的词性标注方法因此被广泛应用。但基于统计的方法也同样存在缺点和局限性，例如在建立模型参数时，需要大量训练语料，而训练语料的选择会影响到精度。

由于基于规则和基于统计的方法在处理某些问题时都不能做到尽如人意，于是有人提出了基于规则和统计结合的词性标注方法，主要是将词典与统计模型结合，这样相结合的词性标注方法在很大程度上弥补了单一方法对标注结果的影响，最大程度发挥了基于规则的方法和基于统计的方法的优点，实际上两种方法相结合其实就是理性主义方法和经验主义方法相结合。

近年来，基于人工智能的方法也应用在词性标注中。相对于前面三种方法，该方法具有适应性强、精度高的优点，来自中国的申请人在这方面的研究较多，技术爆发力较强，取得了一系列研究成果。

词语级语义，布局各有侧重

语义分析的目标是通过建立有效的模型和系统，实现在各个语言单位（包括词汇、句子和篇章等）的自动语义分析，从而实现理解整个文本表达的真实语义。词汇级语义分析关注的是如何获取或区别词语的语义。

词语级语义分析有多种方式，从发展路线来看，基于词典的语义分析中，词典语义、语法结构、双语词典和Yarowsky算法已经不再产生新的重要相关专利申请。基于实例和统计模型鲜有重要专利申请；由于关键词提取技术的发展，基于义词词典的相关技术在2017年仍有相关的重点专利产生，是将来的发展重点之一。与此同时，基于无监督学习，由于不需要专门的语料库，且具有较强的可扩展性，在大数据、算法和芯片技术的推动下，将成为未来的主要发展方向。

从在华重要申请人来看，专利申请量超过3件的重要申请人共有6位，排名第一位的是齐鲁工业大学，后面依次为昆明理工大学、百度、腾讯、富士通和IBM。国外来华申请人方面，IBM在1999年开始提交了基于双词典的消歧专利申请，随后分别于2011年、2014产生基于上下文首字母缩略词以及基于词袋的专利申请；富士通于2012年提交首件基于双语言的消歧技术的专利申请，随后分别于2012年、2016年提交基于组合概率和针对缩减词的专利申请。昆明理工大学在2008年提交一件基于信息改进的贝叶斯方法的消歧技术的专利申请；腾讯的相关专利申请侧重于利用词语的热度、基于文本的内容，以及基于基本词词典和短语词典领域，同时提交一件与词典构建方面有关的专利申请；百度在2012年提交第一件相关专利申请，研究方向包括多粒度词典的构建、利用用户的选择、基于歧义词消解的搜索，并在2018年提交了一件基于无监督神经网络的词语级语义分析专利申请。

早期，清华大学、北京大学、中国科学院声学所、哈尔滨工业大学、日电（中国）、谷歌等科研院所和企业均在国内进相关专利申请。随着技术的发展以及创新主体的重视，南京邮电大学、华东师范大学、富士康、上海交通大学也进行相关领域研究。2014年以后，苏州大学、南京大学、中山大学等高校也加入到词语级的消歧研发之中。

值得注意的是，虽然中国申请人在各个时期均有参与词语级的消歧研究之中，但除昆明理工大学外，大部分早期实力较强的中国申请人并没有持续地提交相关专利申请。在引领词语级消歧技术发展的无监督消歧中，仅有百度提交了一件相关专利申请。

机器翻译，IBM专利实力突出

在20世纪40年代至50年代，机器翻译相关技术处于理论研究阶段，计算机的发明和信息论的研究为机器翻译奠定了理论基础，这段时期并没有相关专利申请提出。

20世纪60年代开始，进入基于规则的机器翻译系统时代。相关专利开始零星地出现，其中IBM作为计算机领域开拓者在这一时期扮演了非常重要的角色，并积累了大量规则机器翻译系统方面的基础专利。除此之外，大学、政府研究机构是这一时期的重要组成，类似Systran系统的机器翻译产品诞生于大学实验室，并通过政府项目合作而存活并发展。

上世纪80年至90年，是机器翻译系统逐渐成熟并走向市场的阶段，这一时期专利申请量开始爆发，并主要来自于企业。而21世纪以来则显现出互联网企业在这一领域的优势，庞大的互联网语料库及算法积累，使得谷歌、微软、百度等互联网公司超越了IBM、东芝等老牌企业，尤其是近些年来深度学习带来的技术革命，数据资源的重要性开始大大降低，具有革命性的技术近年来都来自于对系统算法框架的创新。

以IBM为例，其在2005年，就已经提交了一件与沃森（Watson）系统基本工作原理非常接近的专利申请，公开了一种实现自动问答的方法，该方法主要通过检索实现各类问答服务。随后，从2006年开始到Watson系统在电视节目击败人类而大热的2011年，IBM公司围绕Watson系统进行了全方位的多面布局。同时，在侧重信息检索方面，先后在2009年和2010年提交了基于智能社区的知识共享方法和基于语料库产生问题答案的系统的专利申请。而在Watson系统大热的2011年，IBM又先后公开了用于自动生成问题答案的计算机实现的方法和对问题输入提供决策支持的方法的专利申请，从综合系统以及回复生成等角度进行完善布局。

总体来说，IBM基于其核心产品Watson系统进行了全方位的技术研究和专利布局。围绕Watson自动问答系统，IBM从综合系统、问句理解、信息检索、回复生成以及知识库构建等多个方面进行技术研发和专利保护，并且随着Watson系统影响力的逐步扩大，其技术研发和专利布局的决心愈来愈强烈，全面性也越来越好，并且还以Watson系统单独成立了独立的事业部门。在人工智能与深度学习应用于自动问答系统的大环境下，IBM也非常重视人工智能技术在自动问答系统中的应用，先后开展了人工智能方向的多方合作，并且进行相关的专利技术布局。而在Watson应用方向，医疗领域是Watson的重要应用方向。IBM基于Watson医疗方向开展了一系列的商业动作和专利布局，并且取得了不错的成绩。

真理愈辩愈明

首席律师 徐新明

专利

商标

版权

商业秘密

反不正当竞争

植物新品种

地理标志

集成电路布图设计

技术合同

传统文化

律师动态

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

中企在美专利增长32%

市场监管总局对谷歌涉嫌违反反垄断法立案调查

国务院发布《关于药品领域的反垄断指南》解读（附一图读懂）

知识产权环球资讯丨欧盟就全球SEP费率设定向WTO投诉中国；热播剧...

国知局发布《2024年中国专利调查报告》

审判动态

叶永青承认抄袭，赔偿500万并公开道歉

《逆水寒》编辑器创作视频搬运侵权案

索赔1亿！每日互动起诉苹果侵害发明专利

高德红外商业秘密案新进展：部分嫌疑人在逃

IBM和格罗方德就高性能芯片纠纷达成和解

案例聚焦

知识产权强国建设第三批典型案例发布！

2023年度知识产权行政保护典型案例发布

2023年中国法院10大知识产权案件、50件典型知识产权案例

2023年中国法院12件知识产权重点宣传案例

最高法知产法庭成立五周年十大影响力案件

法官视点

以关键词隐性使用探析《反法（修订草案）》第七条五项

如何精细确定著作权损害赔偿额？

局域网环境下信息网络传播权侵权责任如何认定？

侵犯经营信息类案件的审理要点

首发经济背景下“有一定影响的”竞争法益认定

裁判文书

法律宝库

中国法库

国际法库

自然语言处理专利分析

相关文章

如何培养专利语言服务人才

表情包毁不了语言

人工智能如何理解语言

韩国发布世界首个超大型专利领域大语言模型

商业分析工具Power BI在专利分析中的应用

评论

首席律师徐新明