中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

起底AI黑科技:计算机视觉技术专利分析

发布时间:2018-06-05 来源:方象知产研究院
标签: 人脸识别技术
字号: +-
563

引言 

近期一则新闻引起大家的关注和热议,自4月4日起警方多次在张学友演唱会现场抓捕到痴迷歌神的逃犯,逃犯们落网后纷纷表示,没想到自己藏身茫茫人海中还能被人脸识别系统发现,早知道这样就不来了…

640.webp.jpg

图1 人脸识别抓逃犯

什么是人脸识别系统?人脸识别这么强大?计算机也像人类一样拥有视觉了?一时间计算机视觉成为继AlphaGo之后人们最为关注的科技热点。方象知产研究院顺着这一备受关注的事件,挖掘背后的蓬勃发展的黑科技--计算机视觉,并从专利的角度为您解读这项黑科技的发展趋势。

01计算机视觉是什么?

人脸识别系统是计算机视觉的一项重要应用,一般认为计算机视觉就是“赋予机器自然视觉能力”的一门学科,也可以说是以图像(视频)为输入,以对环境的表达和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。计算机视觉与视觉感知、视觉认知、图像和视频理解等概念密切相关,研究范围有很多交叉却又不完全相同。

计算机视觉是人工智能的一个重要的分支,自然与人工智能也有密切联系,但同时与常见的强调推理和决策的人工智能系统不同,计算机视觉主要研究图像信息表达和物体识别。虽然物体识别和场景理解也涉及图像特征的推理与决策,但与主流人工智能系统的推理和决策有着本质的区别。

640.webp (1).jpg


640.webp (2).jpg

图2 计算机视觉及相关领域

计算机视觉的研究内容,主要分为物体视觉和空间视觉二大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为动作服务。

02计算机视觉发展简史

到目前为止,计算机视觉的发展经过了4个主要的阶段:分别是马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。为了便于分析计算机视觉行业的脉络,下面做一个简要的梳理。

(一) 马尔计算视觉

1982年马尔的《视觉》一书问世,书中将计算机视觉分为计算理论、表达和算法以及算法实现三个层次,不论在理论上还是研究计算机视觉的方法论上,均具有划时代的意义,标志着计算机视觉成为了一门独立学科。由于马尔认为算法实现并不影响算法的功能和效果,所以马尔计算视觉理论主要讨论计算理论和表达与算法二部分内容。

1.计算理论

马尔计算理论认为视觉的核心能力在于通过视网膜成像的二维图像来恢复空间物体的可见三维表面形状,也就是所谓的三维重建,而且生物的视觉能力可以通过计算机来实现。由于二维图像是真实物理世界的投影,计算机视觉的计算理论应该从图像出发,充分挖掘图像所蕴含的物理空间的内在属性和关联信息,并运用先验知识完成相应的视觉问题计算,解释看到的场景和指导相应的行动。

2.表达和算法

马尔视觉计算理论认为,计算机识别物体之前,系统中要有对该物体三维几何形状的存储形式,称之为物体表达。首先从图像中提取边缘信息,然后提取点状基元、线状基元和杆状基元, 通过对这些初级基元组合形成完整基元,完成视觉计算理论的特征提取。其次,在完整基元基础上,通过立体视觉和运动视觉等模块,将基元提升到2.5维物体表达。最后,将2.5维物体表达提升到三维物体表达。

640.webp (3).jpg

图3 物体表达的过程

马尔构建了一种计算机视觉理论体系,可以通过不断丰富具体的计算模块完善“通用性视觉系统”。为纪念马尔的卓越贡献,国际计算机视觉大会设立马尔奖作为最佳论文奖,是计算机视觉领域最高荣誉之一。

(二)主动和目的视觉

在随后的工程实践中,人们发现基于马尔理论的计算机视觉存在一些不足,一是在很多应用场合并不需要严格三维建模,马尔计算视觉方法代价过高;二是马尔计算视觉的鲁棒性不足,难以广泛应用。

因此,一些学者提出了“主动视觉”、“目的和定性视觉”、“应用视觉”等概念,试图改进马尔计算视觉理论缺乏目的性和主动性的问题。这个阶段的研究仍然是在马尔计算视觉的理论框架之下的改良,缺乏创新的框架、理论和方法,也没有对计算机视觉后续研究形成持续的影响。

(三)多视几何和分层三维重建

上世纪90年代视频会议、虚拟现实、视频监控等具体应用有力的牵引了计算机视觉的发展,同时研究发现基于多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度,而计算机技术的飞速发展也给分层三维重建提供了有利的计算能力支撑。

1.多视几何

“多视几何”本质上是研究射影变换下图像对应点之间以及空间点与其投影的图像点之间的约束理论和计算方法的学科,将多视几何理论引入到计算机视觉中,提出了分层三维重建理论和摄像机自标定理论,丰富了马尔计算视觉的三维重建理论,提高了三维重建的鲁棒性和对大数据的适应性,有力推动了三维重建的应用范围。所以,计算机视觉中的多视几何研究,是计算机视觉发展历程中的一个重要阶段和事件。

640.webp (4).jpg

图4  多视几何

2.分层三维重建

分层三维重建,是指从多幅二维图像恢复欧氏空间的三维结构时,不是从图像一步到欧氏空间下的三维结构,而是分步分层地进行。首先进行射影重建,从多幅图像的对应点重建射影空间下的对应空间点;其次进行仿射重建,把射影空间下重建的点提升到仿射空间下;最后把仿射空间下重建的点再提升到欧氏空间或度量空间。

640.webp (5).jpg

图5  分层三维重建

分层三维重建将十分困难的非线性优化视觉问题转化为相对简单的分段线性优化问题,从而大大减小了三维重建的计算复杂度。分层三维重建理论是计算机视觉领域又一个最重要和最具有影响力的理论,是很多重要三维视觉应用的后台核心技术。

(四)基于学习的视觉

基于学习的视觉包括流形学习方法和深度学习方法。

1.流形学习

流形学习理论认为一种图像物体存在其内在流形,这种内在流形解决了直接用图像像素作为表达的“过表达”问题,是一种优秀的物体表达方法,解决了物体识别的核心问题。

流形学习就是通过图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。流形学习一个困难的问题是没有严格的理论来确定内在流形的维度,此外流形学习的效果因问题而异,很多时候其识别率甚至不如传统的主元分析等传统方法。

640.webp (6).jpg

图6  流形学习

2.深度学习

深度网络的概念最早可以追朔到上世纪80年代,但是受限于当时的数据规模和计算能力,深度网络的能力反而不如浅层网络,因此没有得到大的发展。今年来随着数据积累和计算能力的大幅提升,基于深度学习的计算机视觉研究爆炸式发展,在应用领域也取得了丰富的成果,前文提到抓捕逃犯的人脸识别系统就是基于深度学习的具体行业应用。

尽管深度学习在图像识别方面取得了革命性进步,但是一方面关于其算法自身的科学解释缺乏系统性的理论基础,另一方面深度学习在物体定位方面仍无法与基于几何的方法相媲美。

640.webp (7).jpg

图7  深度学习

03全球计算机视觉技术专利申请状况分析

640.webp (8).jpg

图8 计算机视觉技术全球专利申请量年变化趋势

图8 是计算机视觉技术全球申请量年度变化情况。从图中可以看出,全球专利申请量呈现上升的趋势,至今没有达到最高峰值,表明计算机视觉技术没有达到鼎盛时期,还具有很大的发展潜力。值得关注的是,以2000年作为时间节点,此前世界专利申请量基本处于稳定状态,而此后基本处于大幅增长趋势,尤其是2015年之后专利申请量骤升。据相关资料显示,计算机视觉技术自2000年开始逐步迈入第四发展阶段。在该时期内,计算机视觉能力得到极大提升,这得益于以下两方面原因:一是深度学习算法和传感器技术的发展,以及神经网络技术等新方法的运用;二是相关应用领域的急剧扩张,特别是计算机视觉技术在2015年已超过人类水平,迎来广泛应用。

640.webp (9).jpg

图9   计算机视觉技术申请目标国/地区比例分布

640.webp (10).jpg

图10   计算机视觉技术申请原创国/地区比例分布

图9和图10 分别是计算机视觉技术申请目标国和原创国的分布占比情况。从两图中可以看出,计算机视觉技术目标国/地区和原创国/地区均为世界知识产权五大国/地区,即中国、美国、日本、韩国和欧洲,且占比排序基本一致。其中,中国处于计算机视觉技术原创国/地区和目标国/地区的首位,其专利量大幅领先其他各国,分别占全球申请量的55.86%和54.88%,其次为美国,分别占比23.87%和32.56%,再次为欧洲和韩国,最后为日本。这与计算机视觉技术的市场分布情况一致。

人脸识别和视频监控作为计算机视觉技术的重要应用领域,具有更加丰富的应用场景,已然成为计算机视觉技术的主流。据Capvision对相关企业营收的估算数据显示,2015年全球人脸识别市场规模已达200亿,中国约为70亿;而全球监控领域视觉识别市场容量约为740亿,中国约为200亿。据iMedia Research预计,2020年市场规模达到780亿元,年均复合增长率达125.5%.另外,从各原创国/地区和目标国/地区的占比分析,明显可以判断中国即是技术创新水平较高的国家,又是各国申请人最为重视的市场。

在国内良好政策环境的激励下,我国计算机视觉技术逐渐成熟。2015年以来,我国相继出台支持人工智能行业发展的政策,加速了计算机视觉技术创新应用的发展,提升了商业化落地能力,市场发展空间巨大。

640.webp (11).jpg

图11 全球计算机视觉技术IPC分类号分布

图11显示了全球计算机视觉技术的IPC分类号分布情况。根据小类统计分布情况知,G06K(数据识别,占比24.68%)、G06T(一般的图像数据处理或产生,占比23.28%)、G06F(电数字数据处理,占比10.69%)和H04N(图像通信,占比7.94%)占比分别位列前四,说明相关技术主要涉及以电为表征的数字数据信号处理和图像通信。这也表明相当数量的计算机视觉技术专利均涉及数据识别和图像处理等细分领域,且成为世界在计算机视觉领域中的研究方向和关注热点。这也符合计算机视觉技术应用场景的发展现状。随着身份识别的应用场景被开拓延伸,生物特征识别市场不断得到开发,可预期指纹识别、静脉识别、虹膜识别、语音识别等生物识别技术的相关专利申请将会逐渐增加。

从图11还可以看出,G01B(长度、厚度或类似线性尺寸、角度、面积等的计量)、G01C(测量距离、水准或者方位;通过利用无线电波的传播效应测定距离或速度)和G01N(利用光学手段测试)的占比在第五到第七位。可见在当前申请专利中,涉及较多的物体形状和方位确定等相关技术,因为场景分析与判断也是计算机视觉系统的主要解决问题之一。

04中国计算机视觉技术专利申请状况分析

640.webp (12).jpg

640.webp (13).jpg

图12   中国和美国的计算机视觉领域技术专利申请量的年变化

640.webp (14).jpg

图13   中国计算机视觉领域细分技术的年度分布

图12和图13分别为计算机视觉领域中各分支技术的中国专利申请量年变化趋势及申请年度分布情况。从图12中可以看出,中国的计算机视觉技术的专利申请始于1990年,比全球起步晚了近10年(见图8)。但是,中国专利的年均申请量均高于美国,这说明我国虽然起步较晚,但是具有一定的研发基础和实力。

直至2005 年,我国专利申请量才开始出现较大幅度增长,各分支技术年均申请总量约达116件。且此后一直保持高速增长的趋势,这与计算机视觉技术在国内的发展愈发火热有关。从国际环境方面来看,自2011年起,全球大数据资源为计算机视觉算法模型提供源源不断的素材。另外,GPU的出现使得运算力大幅度提升,这均有助于推进计算机视觉技术的发展。从国内政策层面分析,国内相继颁布的利好政策,促进了计算机视觉基础技术的研发和应用。所以,国内的计算机视觉领域的企业不断涌现,至今热度不减。

从图13 所示计算机视觉技术分布来看,我国几乎同时开启G06K、G06T、G06F、H04N、G01B、G01C和G01N等细分技术的研究,这几项技术和计算机视觉系统的各场景应用密切相关,说明中国对于计算技术视觉领域的各分支技术均有关注,且相关研究较为系统化。其中,从2013年至今G06K和G06T的申请大幅增加,且所占比重较大,这与生物识别成为计算机视觉的主流应用有关。

640.webp (15).jpg

图14   计算机视觉技术全球专利申请人排名

图14是计算机视觉技术的全球专利申请人排名。从图14可以看出,在排名前十一位的申请人中,大多数为中国申请人,有4家美国企业入榜。其中,我国的申请机构基本为高校,仅有成都通甲优博科技一家企业,且大连理工大学的申请量独占鳌头,其申请量高达110件。据公开资料显示,目前我国从事计算机视觉技术的公司有104个,国内知名的创业公司有商汤科技、云从科技、依图科技、创视科技等,且发展均处于偏早期。这表明我国的计算技术视觉产业的市场比较分散,且核心技术集中于高校的现实与企业发展的技术实际需求不匹配。

与中国相关情况不同,美国的主要申请机构均是耳熟能详的工业科技界巨头,包括高通、微软、飞利浦和pointgrab等。同时,美国著名高校也设立了计算机视觉相关实验室,如斯坦福计算机视觉实验室、麻省理工媒体实验室等。相关企业作为工业或互联网界的寡头,依靠计算机视觉技术商业化的盈利压力较小。所以,通过深耕技术研发,拥有引领性技术无疑会带给企业强大的竞争力。而且,国外IT巨头纷纷开启并购狂潮,通过布局计算视觉关键技术领域全产业链,挖掘计算机视觉市场潜力。

面对日益激烈的国际竞争环境,尽管目前我国的计算机视觉企业占据较大市场份额,但若要持续保持竞争优势,需要加强专利的市场竞争力。云从科技孵化于中国科学院重庆研究院,这是高校或科研院所服务企业的典型成功案例。故可尝试通过联合高校核心技术发明人资源,推动高校中强大技术和专利储备资源商业化落地,助力形成技术和企业相互支撑的格局。

05结论与建议

计算机视觉技术经过几年的飞速发展,已成功应用于众多场景领域,成为了世界各国争相角逐的蓝海市场。尤其是近年来深度学习方法的发展,提升了计算机视觉的准确度,使得计算机视觉技术的应用价值得到进一步体现,市场竞争也日趋激烈。我国虽具有专利申请量的优势,然而国际上工业或互联网巨头也纷纷局计算机视觉技术,若要在市场竞争中取得领先优势,我们必须掌握行业关键技术、增强企业核心竞争力,激发计算机视觉产业蓬勃发展的活力。

尽管计算机视觉技术发端于学术界,但是唯有进行商业化应用,解决视觉识别的实际问题,才能成为计算机视觉公司的核心竞争力。所以,在提高专利申请量的同时,需更加注重专利的商业化应用,产生更高的经济效益,力争量价齐升。

首先,我国应充分发挥高校和科研院所在国家科技创新体系中的作用。在现有技术研发基础上,进一步加大创新力度,推动技术革新,创造出新颖、实用的核心专利,助力国家核心技术竞争实力。另外,可尝试推动高校科技成果转化的相关措施,如选择与拥有核心技术的高校或科研院所合作,择取一个商业落地的方向,实现技术的经济效益。同时,这也是推动我国科技创新和产业生态融合发展的具体举措。

评论

在线咨询