加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

视觉基础理论

(2010-04-08 10:37:12)
分类: 学术专业类

http://s7/middle/66e4ee5d07391a8f8c326&690

纹 理 (texture)

   在自然图象中,纹理作为物体的一种重要外观特征,为视觉感知提供了无处不在的信息,它在计算机视觉、图形学、图像编码等领域都有着重要作用,例如,格式塔(Gestalt)心理学,早期视觉理论和Marr的原始简约图(Primal Sketch)都将纹理模式作为中心话题。因此,对纹理的理解是视觉理解不可或缺的组成部分。过去的几年里,纹理分析和合成的相关研究工作在基础理论上与实际应用两个方面都取得了振奋人心的发展,研究者结合计算机视觉,图形学,现代统计物理,心理学和神经系统科学等领域的知识,提出了很多关于纹理理解的新方法。纹理的研究工作主要集中在两个领域:滤波理论(filtering theory)和统计建模(statistical modeling)理论。滤波理论来源于在神经生理学中被发现并被广泛接受的多通道滤波机制,该机制认为,人类视觉系统将视网膜图像分解为一组子带(sub-band)图像信号,而这些子带信号可以通过一组线性滤波器和图像卷积然后经过某些非线性操作计算得到。滤波理论在纹理方面的应用主要有 Gabor 滤波器和小波(wavelet)塔等,它们在纹理分割和分类中有良好的性能。统计建模理论认为,纹理图像是随机场上概率分布的采样,该理论涉及到时间序列模型(time series model),马尔可夫链(Markov chain)模型和马尔可夫随机场(Markov random Field,MRF)模型等建模方法。基于统计的建模方法一般只需要用很少几个参数来描述纹理特征,因此能为纹理提供简练的表示,而且它能把纹理分析问题转化为一个明确的统计推理问题来处理。

    我们通过最大熵(Maximum Entropy)原则,将滤波理论和 MRF 建模结合在一起,提出了一种纹理建模的统计理论:滤波器随机场和最大熵(Filters,Random fields And Maxmum Entropy,FRAME )模型。该理论认为具有相同纹理外观的图像全体 I 可以用随机场上的概率分布 fI )描述,这样,纹理建模的目的就是从给定的观测纹理样本集推理 f ( I ) 。 FRAME 理论包括两步:( 1 )特征提取:从通用的能获取纹理特征的滤波器组(filter bank)中挑选出一组滤波器,用这组滤波器对观测的纹理图像滤波,提取滤波图像的直方图。很明显,在概率上,这些直方图是 f ( I ) 边缘分布的估计。( 2 )特征融合:根据最大熵原则,在分布族中选择具有( 1 )中边缘分布的概率分布 p ( I) 作为 f ( I ) 的估计。显然, FRAME 模型是一个 MRF 模型,具有很丰富的词汇量,能够描述大的纹理模式,因此,它比一般用于纹理建模的 MRF 模型纹理描述能力更强。

图 1 是 FRAME 用于纹理分析与合成的例子。上图是观测图像,下图是采样结果。

                      http://s8/middle/66e4ee5d07391a9423b17&690
                                    图1  FRAME 用于纹理分析与合成

   

 纹理基元(Textons)

Textons 是指自然图像中基本的微观结构,它是视觉感知初始阶段(预注意阶段)的基元。Textons 的研究在很多问题中都很重要。首先,将一幅图像分解为简单的图像基元能够减少冗余信息,从而设计更好的图像编码算法;其次,基于分解的图像表达方式能压缩图像的维度,减少变量之间的相关性,更有利于图像建模,而图像建模是图像分割和识别中不可或缺的一步;再次,在生物视觉中,自然图像中的微观结构为理解神经元在生物视觉系统初级阶段的功能提供了重要的生理信息。

Textons refer to fundamental micro-structures in generic natural images and the basic elements in early (pre-attentive) visual perception. In practice, the study of textons has important implications on a series of problems. Firstly, decomposing an image into its constituent components reduces information redundancy and thus leads to better image coding algorithms. Secondly, the decomposed image representation often has much reduced dimensions and less dependence between variables (coefficients), therefore it facilitates image modeling which are necessary for image segmentation and recognition. Thirdly, in biologic vision the micro-structures in natural images provide an ecologic cue for understanding the functions of neurons in the early stage of biologic vision system. However, in the literature of computer vision and visual perception, the word "texton" remains a vague concept and a precise mathematical definition has yet to be found. Here we show some study related to this topic.

调和分析( harmonic analysis )是用于图像成分分析的一个重要工具,在数学上它研究的是函数族的分解,傅立叶变换( Fourier transform ),小波变换( wavelet transform ), wedgelets , ridgelet 和图像分析中的图像塔表示等都属于调和分析的范畴。经过多年的发展,研究者一致认为,图像的最优分解集应该是从全体自然图像中学习得到的。很显然,和傅立叶变换、小波变换等最初处理的数学函数族相比,全体自然图像要复杂得多,因此,研究自然图像的统计特性和图像的微观结构就显得尤为重要。这里有两个具有代表性的研究工作:一种研究的重心是自然图像的统计特性,包括研究图像的尺度不变性,小图像块的联合分布,图像滤波器响应的联合直方图或者相关性等。另一种研究是,利用稀疏编码( sparse coding )的思想试图从自然图像中学习超完备的图像基底。和傅立叶变换和小波变换所采用的正交基或紧框架不同,这里学习出来的基底有很高相关性。

Textons 的研究是从第二种研究路线出发的,它试图解决这样一个问题:当图像的超完备基底学习出来之后,在这些基底上最基本的图像微观结构是什么?和物理概念作个类比,假如将稀疏编码中的图像基底比作质子、中子和电子,那么自然图像中的原子、分子是什么?又该如何从图像中学习这些结构?

Textons 的工作里,我们首先基于图像基元独立同分布的假设,验证了稀疏编码机制中的产生式模型。其次,抛开这个假设,在产生式模型下我们研究了图像基底的空间结构,并且将 texton 定义为由一些具有某种几何和光照信息的图像基底组成的微型模板。

图 2 是一个星型模式从图像基底到 textons 的表达。

   http://s7/middle/66e4ee5d483b0b0170666&690

                             

a) 星型模式的 texton 模板

http://s12/middle/66e4ee5d483b0b3ef9afb&690

b) 基底如何组成星型图像

图 2. 星型模式从图像基底到 textons 的表达 (Zhu, Guo, Wu and Wang 2002)

 

原始简约图(primal sketch)

    自然图象中既有纹理信息,又有结构信息,为了从图像中提取几何结构信息,马尔( Marr )在他的表示框架中提出原始简约图( Primal Sketch )的概念作为中间表示层。这个表示层位于原始图像层和 2.5D 简约图( 2.5 Sketch )层之间。原始简约图在图像中以图像基元( image primitives )的形式出现,如柄 ( bars ),边缘( edges )和终端结点( terminators )等。但是对于原始简约图,马尔( Marr )虽然做了很多客观的描述,但是既没有给出任何显示的数学表示,也没有严格定义视觉基元( visual primitives )的字典。

                                           http://s8/middle/66e4ee5d483b11e1b8467&690
                                           图 3. 马尔的表示框架

我们的研究为原始简约图给出了严格的数学理论,该理论分为四个组成部分:

( 1 )核心理论是将马尔可夫随机场( Markov Random Field, MRF )和小波理论( wavelet theories )结合提出了自然图像的原始简约图模型;

( 2 )结合 matching pursuit 和 filter pursuit,提出了 sketching pursuit 算法,该算法能从自然图像中自动搜寻图像的原始简约图表示。

( 3 )定义了图像的可描画性( sketchability );

( 4 )从图像的简约图表示学习出一个基元字典。

原始简约图模型有以下特点:

( 1 )通过计算可描画性( sketchability )的 sketching pursuit 过程,自动将图像分为可描画( sketchable )部分和不可描画( non-sketchable )部分,他们分别对应着图像中的结构和纹理;

( 2 )利用从自然图像中学习出来的视觉基元( visual primitives ),通过一个类似小波的产生式模型对图像中的结构信息建模;

( 3 )利用描述式模型( MRF 模型)对图像中的纹理信息建模;

( 4 )利用格式塔( Gestalt )场(一种描述式模型)对结构的空间信息建模。

 

http://www.lotushill.org/images/research/1horseriding.jpg http://www.lotushill.org/images/research/2horseriding_process.gif http://www.lotushill.org/images/research/6horseriding_prim_show.gif
a). 输入图像 b). sketching pursuit 过程 c). 简约图
http://www.lotushill.org/images/research/4horseriding_syn_all.jpg http://www.lotushill.org/images/research/5horseriding_syn_txtr.jpg http://www.lotushill.org/images/research/3horseriding_sketch_image.jpg
f). 合成图像 e). 合成纹理 d). 简约图图像

 

                                           图4 原始简约图模型实例

 

                                   由主基元图到2.1维基元图(2.1D Sketch)

   计算机视觉研究中低层视觉的一个主要研究方向是图像分割。由于一个场景中,不同的物体之间有不同层度的交叠,使得最理想的分割结果也会出现物体的不同部分(可视部分)之间分割开来,而不可视部分则为其它物体所覆盖的情况,这就不利于完整地展现物体。因此,有必要利用由图像得到的相关信息,如原始简约图(Primal Sketch)、颜色一致性、方位一致性等,研究一套算法,把同一物体分在同一个层里面,然后再把它们相应的部分之间连接起来,组成完整的物体。这就是2.1D Sketch的主要研究任务。
2.1D Sketch主要研究面物体,且不关心物体之间的深度信息,而只考虑它们之间的偏序关系(Partial    

Order)。
2.1D Sketch的研究成果将会用于图像分割、图像编辑、艺术图像生成以及图像序列分析中。

http://s15/middle/66e4ee5d483b13b3a5f9e&690

http://s15/middle/66e4ee5d483b13c21c24e&690



0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有