| Dahua's profile笑对人生,傲立寰宇PhotosBlogLists | Help |
|
January 19 Shell and Some research大概是这样的,在海面上布置信号接收器的阵列——每个接收器是有专门的技术进行精确定位的(这点,在formulation上可以认为接收器位置已知),然后通过一个信号源制造某种频率的震动,声波在海底表面,以及地壳的不同层的分界面都会发生反射,每个接收器会记录反射信号到达的时间和强度。这些信号通过信号处理技术,恢复出海底表面以及地壳个层面的传播特性和深度的三维图。 这里是一个逆过程。一般来说,已知各层的深度和传播特性等参数,基于偏微分方程进行积分以及求和等计算,就可以求出各个接收点的信号的相位或者强度。而现在需要解决的问题,是已知每个接收点的信号(这是经过各个层面反射的多个信号路径叠加的混合信号),恢复出海底表面,地壳的各个层面的分界面。信号在不同材料中有不同的传播速度,而且各向异性,导致非常复杂的折射和反射,他们的叠加进一步使问题复杂化。他们目前采用两种手段:(1)采用简化模型:他们把有数十项的微分方程用只有几项的简化方程来逼近,这样会导致推断的精度降低;(2)使用Monte Carlo采样,对解空间进行扫描(按概率)。Shell有着非常庞大的计算能力——由数以万计的计算机组成的集群和许多超级计算机。但是,对高维空间(非线性过程)的蒙特卡罗仿真依旧力不从心。许多一再简化的模型仍旧需要数千cpu用一个月以上的时间才能完成。 这次他们请CSAIL和LIDS的几位老板派出一些学生,包括Learning, signal processing和computer vision的,讨论他们遇到的困难。大家提出了一些思路,不过,还有待实践检验。具体的问题不多说了,我这里想谈谈的是,和这些问题的某些部分有某种联系的learning和vision问题,以及它们带来的新的挑战。 Data fusion。利用多种信息源的联系和互补关系共同进行推断。比如要重建或者恢复一张图像,现在vision开发出来的途径五花八门:style transform,superresolution,image impainting,就是分别利用不同style,不同resolution,或者残缺照片进行重建,还有利用不同光照,不同角度拍摄的照片,等等。这些方法发了很多paper,不过其数学本质应该说大同小异,就是given prior, observation以及transform relation,去infer目标图像。这里面,一般包含两个因子,image prior还有conditional likelihood,这个通常就是目标图像transform后和observation的符合程度。这个transform在不同应用中表现出不同的形式,比如在superresolution中,就是down-sampling,在image impainting里面就是一个restricted map, etc。总体架构是类似的。这给我们得出统计的模型提供了基础。这个模型,在训练过程中主要是建立prior的model,而具体的应用过程就是吸收observation后,得出posteriori。并且由此可以评估出observation提供的信息的有效性,各种信源的互补程度,以及结果的可靠程度。 在理论上,这个事情从属于graphical model的框架,在概率结构上并不新鲜。但是有两个问题仍旧是open的,image prior如何formulate? SC-Zhu的工作在这方面进行了很有价值的探索,但是,他们建立的模型过于简化,未必适合结构复杂而且不均匀的真实图像,并且计算上采用采样为主要手段,效率上还不实用。很多其它方面的工作都在特定领域展开,只适合特定应用,而且推广到别的图像的效果有待检验。另外一个问题是computation的问题,这个问题其实是导致前面prior问题举步维艰的很重要的障碍。对于这点,我最近在研究上感触尤深,以前做dimension reduction/feature extraction,计算上基本困难不大,出paper也快。而generative model的inference则是实际应用最困难的,有些东西可以通过简化来毕竟,而有很多方面简化就不make sense了。你可以很容易地写出考虑各种要素的模型(但是不解它),或者很容易地求解一个经过过度简化地模型(五花八门的基于假设得到的求一下特征根就出结果的方法),除此以外,则剩下需要费很大功夫的骨头了。Shell的应用与此没有根本区别,只是它们的有些prior需要从地球物理学去总结,还有就是由于数据量极其庞大,模型没有解析方法求解,因此运算上的困难更为突出。 最近研读李群论。它是现代以群论为基础的代数,和以黎曼流形为基础的几何的一个令人赞叹的结合。它为解决vision中的一些问题提供了新的思路和有效的数学工具。它一个非常重要的部分就是在李群的局部和一个线性代数空间(切空间,在李群论里面,这个空间上面可以建立一种新型的代数形式,叫做李代数,它可以非常有效地描述变换群中的微分算子之间的运算)建立了拓扑同胚,甚至是代数同态的关联。这种联系,可以看成是流形的局部线性逼近,并且为这种逼近提供了很扎实的理论基础。这些理论已经在帮助我重新审视vision的各种方法背后隐藏的核心理念,以及逐步解决了一些具体的困难。不过,离目标还很遥远。 另外一门值得注意的数学,叫做Information geometry(信息几何),这门学科比较冷门,但是,和Learning有莫大关系。它研究的是以distribution为点,以divergence为距离所形成的流形空间。每种graphical model可以看成是distribution manifold在特定约束下的子流形。而EM algorithm和variational inference则是流形上沿着特定切空间的运动过程。在流形上由特定参数控制的分布族,或者符合某种constraint的分布族,可以看作流形上的纤维丛。(这里提一下,纤维丛是微分流形中的重要理论,简单的说,就是流形上由某种参数控制的切面。比如,线性空间中每个子空间都可以看成是一个纤维,它们的集合是纤维丛。纤维丛可以视为子空间集的推广。)以几何角度审察统计问题,可以带来新的perspective。至于Gibbs sampling和MCMC和这种几何的关系,目前还有待发掘。我曾经提到在machine learning问题中,sample和model parameter是对偶的。sampling和对偶空间的分布流形的随机运动是否有某种联系?只是一个可能非常错误的想法,不过,我现在还没有时间关注这个问题。 Comments (10)
TrackbacksThe trackback URL for this entry is: http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!1974.trak Weblogs that reference this entry
|
|
|