机器视觉如何平衡发展?
(2012-11-26 02:55:13)
标签:
杂谈 |
机器视觉,指用机器实现的视觉功能。视觉这个词,由视和觉组成,视就是接收光线,觉就是识别光线。
动物视觉低级的有只能识别动态光影的昆虫,也有能识别全彩的高级哺乳动物比如人,机器视觉低级的有光敏电阻这样只能识别很小范围通光量二值变化的,也有高级一些的比如可以识别指纹、面孔、光学字符、眨眼、肢体动作的。人的视觉具有动态优先、以焦点为中心虚化、按逻辑和记忆补齐,几乎就是视频压缩算法……目前看,机器视觉的“视”已经可以比人眼分辨率高很多,比如机器可轻松区分200以上灰阶,人眼只有不到一半,机器视觉的“觉”在某些方面也比人要强,比如指纹识别等,但是学习方面差很多,人只要看一个样本就能辨认后来的同类样本,但机器需要对同类样本进行大量采样和归纳才可以识别同类,这里面非常重要一个原因是人在看到新鲜样本时,是向大的知识库里添加一个样本的特征,而机器则首先要把需要识别的对象从未知背景里提取出来。
机器视觉该如何发展?
在“从OCR看模式识别开发要点”(http://blog.sina.com.cn/s/blog_59191ea60100w5hy.html)一文中我讲到单一功能模式识别的开发最重要是场景设计,通过对用户有吸引力的场景设计销售产品,并将技术融入产品,这样情况下,需要设计出可以吸引很多用户的场景或者能处理大量单一业务,比如手写识别和指纹识别是可以植入大量终端的,而OCR可以处理大量单一业务,通过终端授权或方案集成获得收入。但是在样本特征不稳定的一些领域,特征库必须要能训练进化,此时一次性固化特征库的终端授权或方案集成方式都显得不合适了,比如吴军在《浪潮之巅》说“世界上主要的语音识别公司只剩下Nuance一家,美国整个语音识别市场的规模一年不到五亿美元,相当于谷歌两个星期的收入。”这就是典型的场景设计有问题导致收入规模低下。我曾经做调查,对通话语音生成文本摘要的需求调查,不仅商务用户有强烈需求,大量个人用户也有需求,语音-文本双向转换技术可以有很吸引人的场景设计,比如语音转文本给会议室正在开会不能语音的通话对象,文本返回再转语音给正切菜不方便看屏幕的通话对象等等……这是可以按分钟计费获得收入的,能按分钟计费获得收入的增值通信业务将有怎样收入规模?
机器视觉和语音识别遇到的问题是一样的,当“设计出可以吸引很多用户的场景或者能处理大量单一业务”这样的模式已经挖掘不到足够价值项目的时候,科研就进入了玩票为主的时代,没有企业肯大规模投入,很多小产品看上去有趣,但是适用范围小且工作稳定性很差,典型例子是很多为论文开发的面孔识别软件识别效果极差,不能识别真人与照片差别,而面孔识别+眼控解锁成功率又奇低,严重影响用户体验。
在网络发展过程中我们进行过一些转变,前期主要由编辑制作内容呈现给公众看,现在主要是由公众自发创作内容,再由搜索引擎或社交网络来进行内容质量判断,机器视觉的发展也面临这样的问题,从大团队专家设计应用场景实现大业务量的功能,转向平台提供引擎,很多小团队提供特征库,并通过用户的投票(选用,类似搜索引擎中对查询结果的点击构成投票)实现特征库质量筛选,这是机器视觉发展的必由之路。那么,平台引擎该如何起步?实际上,按类别的图像,特征还是相对稳定的,比如植物图像,同种植物同一个生长阶段,叶子和果实的相对尺寸变化范围很小,根据叶子尺寸基本上就能判断植株全株尺寸(有人认为植物检索和指纹、车牌一样二值化之后找特征,这是不对的,车牌可以找矩形,植物从背景抽离没法二值化后抽离,所以制作特征库时候得先按色块、相对尺寸查找,把植物找出来之后再按色块区分部位,再二值化找特征线段),当然,特征库里色块、相对尺寸信息与线段等特征信息是平权的,特征库用于识别工作时候按全部特征的吻合率来进行查找。
另外,很重要一点是,人眼之所以可以方便地将对象从背景抽离,是因为人眼看到的图像是立体的,将来摄像普及3D之后,对象从背景抽离算法将变得简单很多。
听起来机器视觉识别植物几乎没啥问题,那么,现在的问题是什么?当我提到植物签到( "植物签到商业计划书.pdf" http://vdisk.weibo.com/s/fQNcT)旨在通过有约束的入口收集图像生成可用素材时,有人问素材在模式识别中的重要性,关于这个,呃,好吧,做模式识别的人可以跳过……有人要问了,每个人指纹只需要采集一次就可以识别,为什么每种植物要采集那么多图像来做?指纹识别也是通过归纳很多指纹图像,归纳出里面可能出现的几种特征线段,然后把手指肚划分为若干特征点,每个特征点出现的特征值的组合……对于植物来说,每种植物的二值化图像里可能出现的特征线段组成的花纹(线段组)不同,各种植物里可能出现的特征花纹是不同的,不像指纹里出现的就那几种特征线段,所以每种植物都需要采集不同生长阶段、不同尺寸、部位图片,二值化图像里的这些特征花纹,和手绘图是有很大区别的,有人看二者都是黑白的就以为一回事……
正是由于这个图像采集工作量非常大(全球45万种植物,就算每种植物100只采集张,也是4500万张,加采集地点等约束去做整理,没有哪家实验室可以做,google也不行),所以无法象OCR、指纹识别那样实验室完成素材采集工作,而是需要借助社会化网络,从图像采集就开始进行约束,通过用户的不断筛选来将图像送入更相邻的素材计算节点(×)(让用户在辨认时,备选图像中挑选更有辨识度的图像),归纳计算特征。
植物的机器视觉完成,对将识别对象从背景抽离方法的研究会有很大帮助,对传感器(摄像设备)的工作方法改进,以及图像处理方法的改进,包括图像存储标准,都会有很大影响,实现大量对象都可以从背景抽离来识别,对改善机器视觉的学习方法也会有很大帮助。
机器视觉对植物的识别是农业在未来实现智能化的基础。机器视觉对人工制品的识别是工业在未来实现智能化的基础。不要觉得这个工作很漫长,社会化网络已经让很多工作比之前的预计快很多倍。
动物视觉低级的有只能识别动态光影的昆虫,也有能识别全彩的高级哺乳动物比如人,机器视觉低级的有光敏电阻这样只能识别很小范围通光量二值变化的,也有高级一些的比如可以识别指纹、面孔、光学字符、眨眼、肢体动作的。人的视觉具有动态优先、以焦点为中心虚化、按逻辑和记忆补齐,几乎就是视频压缩算法……目前看,机器视觉的“视”已经可以比人眼分辨率高很多,比如机器可轻松区分200以上灰阶,人眼只有不到一半,机器视觉的“觉”在某些方面也比人要强,比如指纹识别等,但是学习方面差很多,人只要看一个样本就能辨认后来的同类样本,但机器需要对同类样本进行大量采样和归纳才可以识别同类,这里面非常重要一个原因是人在看到新鲜样本时,是向大的知识库里添加一个样本的特征,而机器则首先要把需要识别的对象从未知背景里提取出来。
机器视觉该如何发展?
在“从OCR看模式识别开发要点”(http://blog.sina.com.cn/s/blog_59191ea60100w5hy.html)一文中我讲到单一功能模式识别的开发最重要是场景设计,通过对用户有吸引力的场景设计销售产品,并将技术融入产品,这样情况下,需要设计出可以吸引很多用户的场景或者能处理大量单一业务,比如手写识别和指纹识别是可以植入大量终端的,而OCR可以处理大量单一业务,通过终端授权或方案集成获得收入。但是在样本特征不稳定的一些领域,特征库必须要能训练进化,此时一次性固化特征库的终端授权或方案集成方式都显得不合适了,比如吴军在《浪潮之巅》说“世界上主要的语音识别公司只剩下Nuance一家,美国整个语音识别市场的规模一年不到五亿美元,相当于谷歌两个星期的收入。”这就是典型的场景设计有问题导致收入规模低下。我曾经做调查,对通话语音生成文本摘要的需求调查,不仅商务用户有强烈需求,大量个人用户也有需求,语音-文本双向转换技术可以有很吸引人的场景设计,比如语音转文本给会议室正在开会不能语音的通话对象,文本返回再转语音给正切菜不方便看屏幕的通话对象等等……这是可以按分钟计费获得收入的,能按分钟计费获得收入的增值通信业务将有怎样收入规模?
机器视觉和语音识别遇到的问题是一样的,当“设计出可以吸引很多用户的场景或者能处理大量单一业务”这样的模式已经挖掘不到足够价值项目的时候,科研就进入了玩票为主的时代,没有企业肯大规模投入,很多小产品看上去有趣,但是适用范围小且工作稳定性很差,典型例子是很多为论文开发的面孔识别软件识别效果极差,不能识别真人与照片差别,而面孔识别+眼控解锁成功率又奇低,严重影响用户体验。
在网络发展过程中我们进行过一些转变,前期主要由编辑制作内容呈现给公众看,现在主要是由公众自发创作内容,再由搜索引擎或社交网络来进行内容质量判断,机器视觉的发展也面临这样的问题,从大团队专家设计应用场景实现大业务量的功能,转向平台提供引擎,很多小团队提供特征库,并通过用户的投票(选用,类似搜索引擎中对查询结果的点击构成投票)实现特征库质量筛选,这是机器视觉发展的必由之路。那么,平台引擎该如何起步?实际上,按类别的图像,特征还是相对稳定的,比如植物图像,同种植物同一个生长阶段,叶子和果实的相对尺寸变化范围很小,根据叶子尺寸基本上就能判断植株全株尺寸(有人认为植物检索和指纹、车牌一样二值化之后找特征,这是不对的,车牌可以找矩形,植物从背景抽离没法二值化后抽离,所以制作特征库时候得先按色块、相对尺寸查找,把植物找出来之后再按色块区分部位,再二值化找特征线段),当然,特征库里色块、相对尺寸信息与线段等特征信息是平权的,特征库用于识别工作时候按全部特征的吻合率来进行查找。
另外,很重要一点是,人眼之所以可以方便地将对象从背景抽离,是因为人眼看到的图像是立体的,将来摄像普及3D之后,对象从背景抽离算法将变得简单很多。
听起来机器视觉识别植物几乎没啥问题,那么,现在的问题是什么?当我提到植物签到( "植物签到商业计划书.pdf" http://vdisk.weibo.com/s/fQNcT)旨在通过有约束的入口收集图像生成可用素材时,有人问素材在模式识别中的重要性,关于这个,呃,好吧,做模式识别的人可以跳过……有人要问了,每个人指纹只需要采集一次就可以识别,为什么每种植物要采集那么多图像来做?指纹识别也是通过归纳很多指纹图像,归纳出里面可能出现的几种特征线段,然后把手指肚划分为若干特征点,每个特征点出现的特征值的组合……对于植物来说,每种植物的二值化图像里可能出现的特征线段组成的花纹(线段组)不同,各种植物里可能出现的特征花纹是不同的,不像指纹里出现的就那几种特征线段,所以每种植物都需要采集不同生长阶段、不同尺寸、部位图片,二值化图像里的这些特征花纹,和手绘图是有很大区别的,有人看二者都是黑白的就以为一回事……
正是由于这个图像采集工作量非常大(全球45万种植物,就算每种植物100只采集张,也是4500万张,加采集地点等约束去做整理,没有哪家实验室可以做,google也不行),所以无法象OCR、指纹识别那样实验室完成素材采集工作,而是需要借助社会化网络,从图像采集就开始进行约束,通过用户的不断筛选来将图像送入更相邻的素材计算节点(×)(让用户在辨认时,备选图像中挑选更有辨识度的图像),归纳计算特征。
植物的机器视觉完成,对将识别对象从背景抽离方法的研究会有很大帮助,对传感器(摄像设备)的工作方法改进,以及图像处理方法的改进,包括图像存储标准,都会有很大影响,实现大量对象都可以从背景抽离来识别,对改善机器视觉的学习方法也会有很大帮助。
机器视觉对植物的识别是农业在未来实现智能化的基础。机器视觉对人工制品的识别是工业在未来实现智能化的基础。不要觉得这个工作很漫长,社会化网络已经让很多工作比之前的预计快很多倍。
后一篇:IT业千亿级市场市场预测