中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

搜狗人工智能专利布局分析

发布时间:2019-03-22 来源:中国知识产权报 作者:刘佳
字号: +-
563

640.webp.jpg

随着“姚小松”“新小萌”“康晓辉”等AI合成主播不断走红,人们越来越期待揭开这些形象人物背后的技术面纱。据了解,这类AI合成主播通过语音合成平台便可以定制出多情绪、多语种、个性化的语音。智能语音播报具有信息准确、数据翔实、播报及时、省时省力等优势,由数据库自动生成,如新闻播报、天气预报、路况信息、广告配音等。其实,这一切的实现离不开人工智能技术的发展。

人工智能是研究利用计算机模拟人类智能活动,实现对人类大脑的模拟、延伸和扩展。作为较早关注人工智能的企业,搜狗进行了大量的专利布局,并积极推进该技术的应用,在行业中掌握了一定的主动权。

紧跟产业 注重布局

1956年,美国达特茅斯大学举办了第一次人工智能研讨会,讨论用机器模拟人类智能问题,开启了人工智能研究。在我国,一直以来人工智能受到各个层面的关注,出台了相关政策。如2015年起,《国务院关于积极推行“互联网+”行动的指导意见》《新一代人工智能发展规划》等国家方案陆续发布;2017年,工业和信息化部印发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,推动新一代AI技术产业化和集成应用以及AI实体经济深度融合。

清华大学发布的《2018中国人工智能发展报告》显示,中国成为全球人工智能专利布局最多的国家,人才总量世界第二,企业数量全球第二,是世界人工智能投融资规模最大的国家。业内人士表示,人工智能技术涉及的技术点非常广,以AI主播为例,主要涉及提取主播的声音、动作表情等行为特征,进行深度学习,拟合出与主播声音、动作表情相似的信息,进行语音合成、唇形合成、表情合成,从而展示出能“以假乱真”的主播形象。

作为一家科技型企业,搜狗非常注重专利布局。笔者经过中国专利文摘数据库检索后发现,截止到2019年3月15日,搜狗共提交专利申请1444件。从2006年提交专利申请开始,搜狗的专利申请一直保持稳步上升趋势,其中在2014年以后呈指数增长,由于发明专利从申请日起到公开日通常需要18个月的时间,因此,2018年和2019年的数据并不能完全反映其申请情况。

笔者以“学习、深度、神经网络、深层网络”等人工智能相关关键词作为入口,检索出搜狗在人工智能领域提交的专利申请403件。经过进一步分析发现,搜狗的AI主播技术主要涉及人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移,结合语音、图像等多模态信息,进行联合建模训练。另外,笔者对涉及人工智能的相关专利申请的年份统计发现,自2014年开始,搜狗该领域的专利申请量呈指数增长,并且在2017年达到峰值,达到146件。这与该领域受到重视息息相关。

突出重点 统筹兼顾

在搜狗403件人工智能技术专利申请中,其中涉及神经网络深度学习的专利申请为14件;涉及人脸检测特征提取相关技术的专利申请4件;涉及唇语识别唇形合成相关技术的专利申请2件;涉及情感迁移的专利申请11件;涉及语音识别及语音合成的专利申请114件。由此可见,搜狗相关技术创新的重点还是在语音识别及合成相关技术上。

如一件名为“一种基于人脸识别的表情输入方法和装置”(申请号:CN201410251411.8)的专利申请公开了一种基于人脸识别的表情输入方法和装置,涉及输入法技术领域。该方法包括启动输入法;获取用户拍摄的照片;采用人脸表情识别模型确定照片中的面部表情对应的情感标签;基于情感标签与各主题中的表情的对应关系,分别获取情感标签的各主题的表情;将各主题的表情进行排序,并作为候选项在客户端进行展示。该技术可直接根据用户当前拍摄的照片,识别并匹配标签,方便用户输入表情,准确度高,并且为用户提供了丰富、广范的表情资源。

一件名为“一种语音合成方法及装置”(申请号:CN201711206137.2)的专利申请公开了一种语音合成方法和装置。该方法包括确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征;风格特征包括时长韵律特征、基频特征、能量特征中的至少一种;根据文本特征数据、目标音频的风格特征以及源音频数据的音色特征进行语音合成,得到合成语音数据;合成语音数据具有源音频数据的音色以及目标音频的风格特征。该技术可以使得合成语音具有源音频数据的音色以及目标音频的风格特征,提高了合成语音的情感表现力,更加自然,有效提高语音合成的质量。

一件名为“一种唇部状态检测方法及装置”(申请号:CN201711209022.9)的专利申请公开了一种唇部状态检测方法和装置。该方法包括对目标图像进行唇部区域检测,获取目标图像包括的唇部区域图像;确定唇部区域图像的多个关键特征点;根据多个关键特征点对应的特征值确定唇部区域的状态;唇部区域的状态包括开口状态或者闭口状态。该技术可以有效检测唇部区域状态,识别准确性高,成本低,并能有效去除静音帧等噪声数据对唇语识别结果的影响,减少干扰,提高数据处理效率。

一件名为“一种神经网络模型训练方法、装置及电子设备”(申请号:CN201611034481.3)的专利申请公开了一种神经网络模型训练方法、装置及电子设备,以解决现有技术中通过多计算设备异步更新算法训练神经网络模型时,训练的稳定性较低的技术问题。该方法包括在对神经网络模型进行训练的过程中,如果至少两个第一计算设备训练的已训练轮数满足预设条件,基于神经网络模型的主模型的权重值对每个第一计算设备对应的主模型的副本的权重值进行同步更新,从而能够在不显著增加训练时间的情况下,增加了神经网络模型的权重值的同步策略,保证了主模型以及主模型的各个副本的权重值的一致性,从而达到了增加对神经网络模型训练的稳定性的技术效果。

值得一提的是,经过德温特数据库检索后发现,目前搜狗在国外提交专利申请近100件。可见,搜狗也非常注重海外专利布局。

评论

在线咨询