Dahua 的个人资料笑对人生,傲立寰宇照片日志列表 工具 帮助
2月21日

Homework? Review paper for Science

今天作业的一部分,是以Science的reviewer的身份去review一篇文章,并攥写review报告。

这篇文章是已经在1996年发表于Science上,标题非常有趣:

Statistical Learning by 8-Month-Old Infants

大家可以非常容易在google上找到这篇文章的全文。

文章指出一个一个很值得思考的心理学实验结果:一个很小的婴儿,只需要听上两分钟的连续语音,就能形成对以后听到的连续语音进行有效分词的能力。

这篇文章阐述的是在语言学习方面的结果,而事实上,在所有智能领域,我们都可以看到类似的观察。比如在Vision,人们都没有经过系统的可控的物体识别训练,但是却非常容易获得在复杂的世界上对对象进行迅速的分割,识别,以及获取其它方面信息的能力,而目前computer vision的能力在最简单的可控实验中依旧举步维艰。

人类只需要很少的训练的情况下能够迅速获得非常灵活有效的“模型”去应对充满变化和干扰的实际输入,而计算机学习算法通过在大量样本训练,也很难接近哪怕是婴儿的水平呢? 人类的学习机制和目前人工智能研究所采用的方式究竟有什么不同?

现在统计学习领域百花齐放,但是,大部分的方法,无论formulation有多大的数学上的差别,基本上都是让一个具有某种结构的model按照某种准则去"fit"训练数据,通常还加上某种复杂性的约束。不过,很难想像人类是使用类似的方法从现实中学习的。我们每天感受到的是一个不断变化,各种要素充分融合的世界,没有分离的“训练数据”去学。我们的大脑能够理解非常复杂的东西,但是我们所接触的“训练集”按照经典统计学系理论的观点是无法支持这种复杂性的。虽然,我们经常会犯被观察所误导的错误,但是,相比于机器学习算法,我们overfitting的机会和程度远小得多。

我相信,我们的学习过程远比目前所有的机器学习算法聪明得多,绝不仅仅是observed->fitting这样的统计形式。AI的主要领域的研究现在过分依赖于统计建模,可是统计有它固有的瓶颈。早在Vapnik他们建立统计学习基础的时代,已经明确告诉了大家,统计学习受到复杂性的根本制约。因此,统计学习本身并没有足够能力到达人工智能的目标。相对于人类真正的智能来说,统计所能产生的智能只能认为是一种非常初级的形式。

从rule-based的专家系统到神经网络,再到统计学习,AI几十年内经历了几次大规模方法论更新的浪潮,但是是不是离真正的智能越来越近了呢?我们究竟是不是走在一个正确的方向上?

2月18日

有价值的paper

CVPR 2008的审稿期刚刚结束了。今年,我对于所审的paper,采取了更加宽容的态度。

Vision依旧很热闹,但是,我感觉这个领域在喧嚣的背后似乎有点疲态了。年复一年,每年成百上千的paper仍旧是在那几个旧的舞台上唱着老调子。比如object recognition,无数打着"novel framework"旗号的车子,仍旧挤在local feature extractor + classifier (SVM/AdaBoost ...)的独木桥上,难道,这是唯一的方法么?

在没有看到有人开辟新的道路的时候,我更欣赏那些专注解决于一个具体的小问题,并且提出了有见地的方法的文章。对于那种表面华美的,而内里却仅仅是把A feature换成B feature,C model换成D model的,我一般评价很低。

这里的一位教授在谈到写paper的时候,提到了一种很多人都会犯的毛病。还是用object recognition的工作为例子,为了完成实验,你必须做大量的工作,把整个framework搭建起来,从data到feature到classifier,要写很多很多的code,花很多很多的时间去debug。为了对得起这些付出,很多人想把这些努力都写到paper上去,因此形成了很多并不新颖的工作每年都在投。而事实上,这些工作并不完全是没有新的东西,但是,那一点新的东西,在整个framework式的表述中被喧宾夺主了。

要写一篇有吸引力的文章,必须有取舍的决断。有些为了完成实验必须做的工作,你即使在上面付出了半年时间,但是如果缺乏真正的学术价值,在paper中应该尽量简省,把大部分的篇幅着力于那些真正的有意义的地方(哪怕那个地方其实你只花了3个小时想出来)。评paper不是评劳模(当然有些reviewer可能有这种倾向),不能把工作量的因素拿来布局paper的篇幅,不能把对某些工作“舍不得”的情绪带到paper的presentation当中。

CVPR审稿落幕了,我们的reading group又开始了。这个学期,John决定让大家自己轮流选paper,lead每个星期的reading。他说,除非有充分的理由,不要选近五年的文章。他上学期其实就是这样的风格,选的很多都是五六十年代的文章——信息论和统计学习的奠基者们那种seminal的经典著述。这些paper让我感慨前辈们的工作是多么有生命力,今天无数的主流算法仍旧发源于40年前的某篇文章,而且事实上没有走远多少。科技日新月异,其核心学理的进化则缓慢得多,艰难得多。

在paper里面通过比较几个近期工作来claim自己的东西是新的很容易,但是,要让一个工作放在这个学科的整个发展历史中去考量却依然有价值,则是非常艰难。这个学期,我开始要参加Alan的meeting, 他是MIT另外一个大实验室LIDS的director。有一次和Alan meeting的时候,大家提到一些最新发表的算法,他说,这些东西has been done 40 years ago。他人很nice,但是一项工作要得到他的认同很难。那次,我在他面前present了40分钟我的新工作,很多的东西都被他认为是在数学领域已经解决的(虽然vision里面没有出现这样的publication),不过庆幸的是,还是有一个point,被他指出I have never seen people working on this。后来两个星期,我在这个point上投入了很多时间去思考,发现这确实是一个很有价值的问题。

我在这里所接触的教授都很nice,平常对学生的工作也不干涉太多,但是对于一项工作的评价非常挑剔。John告诉我,要解决最困难的问题,容易解决的问题让别人做去。这半年来,脱离了CVPR的指挥棒,在沿着自己的道路一点一点的缓慢前进着,但是走的很踏实。刚来的时候,对MIT的氛围有点不太习惯,好像CVPR也好,NIPS也好,都没什么要紧的。现在才慢慢觉得,只有从conference的指挥棒中走出来,才能脱离浮躁,实实在在的进行有意义的探索。

两个星期后,将轮到我挑选reading group上讨论的paper。这么长时间大家都讨论的是信息论和统计方面的文章,我说,我要变一下,找vision的paper,John答应了,不过条件是paper必须是经得住考验的真正的好paper。我现在不知道哪篇能达到这个要求。

2月12日

统计模型 or not

开学第一周,下岗了很长时间的闹钟又开始工作了。在上课和作业中,生活又恢复了忙碌。

这个学期选的一门Natural Language Processing,上课的风格还是让我觉得颇有创意。这门课每隔两周都要学生完成一篇类似GRE Issue这样的作文,就某个看上去有点深度的问题进行辩论。

在第一堂课,就布置了这样的讨论题:

比较统计模型和语法模型在自然语言建模中的优劣。

其实原题给出的是两个虚拟的Google员工的辩论,要求对其发表评论,上面这句话只是一个简要的归纳。题目中有一个很有意思的类比:

牛顿基于开普勒的天文观测数据归纳出万有引力定律。假设我们有充分多的天文数据,是不是可以直接Learn出一个统计模型,并且用它来predict行星在任何时间的运行位置和速度呢。

事实上,离开自然语言这样一个context,更广义上说,这里做的是让经验模型PK核心定律。

这里继续引申,可以到达一个听起来有点离经叛道的思考,前辈们在过去几百年间通过艰辛的努力和积累,建立起了以物理定律为基础的科学,

那么物理定律,能不能通过统计方法学出来呢?或者说,牛顿能不能被统计算法所取代呢。

我不是“统计万能”的支持者,但是,我相信,对这些问题的思考,有助于于理解统计方法的本质能力——它究竟能做什么,不能做什么。在过去的十几年里,统计学习在AI的众多领域里占据了主导地位。AI在继专家系统和神经网络之后,迎来了“统计时代”。但是,统计是不是就是建立真正意义的人工智能的钥匙呢?在享受统计方法给我们带来的一切好处的同时,也许,我们也许还需要一种批判的眼光去审视当今科学研究中的统计潮流。

2月10日

再访纽约

上一次去纽约,已经是一年半前的事情了——参加2006年的CVPR。

昨天,我再次来到了纽约——因为要给Dylan当搬运工,同时也看看远道而来的小呆了,呵呵。

纽约是在很多人心中国际大都会的象征。但是,无论从哪个角度说,它都不属于那种人见人爱的城市。不同于东方的几个明星城市像香港和新加坡,纽约给我的第一印象就是既破又脏。

作为游客,我在纽约的主要交通工具是地铁——这里的地铁是世界上最古老的地铁之一,不过,也是我见过的最破烂的地铁。黑森森的地铁站里面站着,目无表情的人,从楼梯,站台,乃至铁轨上面到处都是垃圾和烟头——散发着令人不太愉悦的味道。很多地铁站内没有线路牌,地铁里面很多时候也是不报站的。不过,只要留心观察,要是有足够的素材让你判断火车到了哪个站了——虽然不是特别清晰显眼。

曼哈顿的主要区域都可以用“坐标”定位,主要的街和大道排成规则的纵横网格,都是用数字编号,使得在这个大城市里面找地方变得非常方便。曼哈顿岛上有大片的鳞次栉比的高楼群(从总数上超过香港的中环很多)。在美国的很多城市(包括Boston, San Diego乃至Houston)晚上都是颇为安静的,街上的商店很早就关门了。而纽约和这个国家的其它城市不同,到了晚上12点,主要的街道上依旧车水马龙,热闹非凡——就像香港的弥敦道。

三教九流的人共融在这个城市里。在这里,你经常可以看到豪华的加长林肯招摇过市,也可以看到在街边的衣衫褴褛的乞丐。在高耸入云的摩天大厦的下面就是遍地烟头的街道和破败不堪的地铁站。

纽约,不是一个花园城市,但却是一个充满魅力的城市——它的魅力源于它海纳百川的胸襟——藏龙卧虎和又藏污纳垢——鲜明的反差渗透在这个城市的每一个角落,构成了纽约最独特的性格。

2月6日

开学了

新学期开始啦——寒假后,又要开始面对繁忙的课程了。

开学第一天,就和mentor meeting了——他非常满意,算是给这个学期开了个好头。这个学期的任务还是很重的,选了两门课

Computer Networks:选这门课,是因为系里要求学生在qualify前选择的课程必须横跨三个领域,在System领域,我们大家合计选这门了——因为考试的比重比较少。不过,这门课是research-oriented的,课程project要求很高。

The best projects are sure to be publishable (as they have in past years) in top ACM or IEEE conferences in the area, such as SIGCOMM, INFOCOM, or MOBICOM, or appear as articles in journals like SIGCOMM's Computer Communications Review (CCR). I have a strong feeling that you will far surpass my already high expectations with wonderful work that will further the state-of-the-art in network research.

看来有得忙活了。如果上三个月课作出来的project就能发到mobicom/sigcomm,我估计得考虑转行做网络了,哈哈。历史上是有这号牛人的,敬仰一把。

还有一门Natural Language and Computer Representation of Knowledges。这门本不是我要选的,只因为Computer Vision课被Freeman取消了,起码今年没有。不得不在AI领域另选一门。不过看了一些syllabus,内容还是很interesting的。

开拓视野,博纳众长,说不定对自己的research还有所启发。

最后,祝愿大家新春快乐!

2月3日

Is computer vision as good as thought?

随手翻开这期TechTalk, 在头版的大标题computer vision的字样赫然入目。第一次在TechTalk看到自己领域的文章,自然很感兴趣。

先介绍一下,TechTalk是MIT内部一份免费派发的报纸,每周一期,主要报道学校的各种科学研究的进展。一直以来,占据这份报纸头版的主要是生命科学,能源科学,或者新材料。

这篇文章的标题是 Computer vision may not be as good as thought

文章的作者来自 McGovern Institute of Brain Research @ MIT。

文章主要是针对近期在Object recognition所取得的“进展”而发的。它开篇就旗帜鲜明地提出:

The apparent success of object recognition may be misleading because the tests being used are inadvertently stacked in favor of computers.

在MIT McGovern Institute和Harvard Rowland Institute的一项联合研究中,他们认为,被广泛用于评价object recognition性能的Caltech 101 database并不能有效反映出算法在真实条件下的能力。文章指出,object recognition的核心困难源于一个物体在形成图像过程中,由于方向,位置,光照,外界环境等等的要素影响而发生的各种变化。而以Caltech 101为代表的主流测试库,在获取过程中实际上是隐含了有利于计算机辨别的因素,而不能真实反映客观世界的复杂变化,并且掩盖了实际问题的复杂性。

The ease with which we recognize visual objects belies the computational difficulty of this feat.

在他们的实验中,他们做了一个非常naive的算法作为baseline,该算法仅仅用到了一些非常初级的信息,而且没有进行特别处理和分析。他们原以为这个算法会fail,但是他们惊奇地发现,这个naive算法在Caltech 101上表现出色(surprisingly well),其性能甚至超过了5个最新提出的state-of-the-art的算法。

从这样的实验结果中,他们对主流的算法评价体系提出了质疑

We suspected that the supposedly natural images in current computer vision tests do not really engage the central problem of variability.

为了验证他们的想法,他们设计了这样的实验,只使用飞机和车两类物体,但是,尽可能引入各种真实变化的条件。他们发现,那些在Caltech 101上面分多类分得很好的算法,在这里分两类都分得一蹋糊涂。这个团对得到这样的结论:

The model did well on the Caltech101 image set not because it is a good model but because the so-called 'natural' images in the test set fail to adequately capture real world variability.

他们提出,computer vision的研究人员应该抛弃现有的不科学的评价体系。

作为脑科学系的研究人员,他们研究object recognition的方法,主要是探索our brain's own solution,并且尽可能地去模仿它。他们认为,这是一个正确的方向。