猫's profile哼哈轨迹PhotosBlogListsMore Tools Help

Blog


    April 30

    写paper的技巧(ZZ)

    下面是一位PR的riewer写的一些教大家写paper的方法
     
    恩,求平均值
    很多文章的思想其实很简单的,可是怕拿不出台面,怎么办呢?呵呵,其实只要用一些数学技巧,就可以把一篇本科生习作,变成能在国际会议上发表的论文,呵呵。在论文中,你还可以言之凿凿地声称:We establish a well-founded model based on xxx theory, and derive a surprisingly elegant solution to the optimization problem under the formulation.

    举一个简单的例子,和大家分享一下。问题非常简单:给定n个数(向量):x1, x2, ..., xn,要找出一个数x,使之最好地代表这些点。

    解决方法其实很简单,求它们的平均值就是了:x = (x1 + x2 + ... + xn) / n。可是文章不能这样写啊,于是为了让自己的paper看起来学术化一点,我们要建立一些复杂一点的模型:恩,就是让问题看起来复杂一些,以提高文章的含金量。从我自己的知识水平和研究领域来说,起码发现了这么一些模型,都导致同样的结果——求均值。

    (1) 基于简单优化的模型——Least Square Formulation: 找一个点x,使得x到所有给定点的平方误差之和最小。
    x = argmin_x { (x - x1)^2 + (x - x2)^2 + ... + (x - xn)^2 }

    (2) 基于信道传输的模型——Isotropic Noisy Formulation: 把这些点都看成某个点x受加性高斯噪声影响产生的:xi = x + ni。假设噪声项满足高斯分布 N(0, sI)。求点x,使得平均噪声水平最低。

    (3) 基于经典概率理论的模型

    (3.a) Single Gaussian Model 假设这些点服从高斯分布 N(x, s^2)。那么对于x的最大似然估计(Maximum Likelihood Estimation)就是给订数的均值。

    (3.b) Gaussian Mixture Model 多高斯模型的各个component的Maximum Likelihood Estimation均值,按照component weight再对这些均值再加权平均,最后还是这些数的均值。

    (4) 基于贝叶斯统计理论的模型——Bayesian Formulation: 通过引入先验概率priori,可以把经典概率模型推广到Bayesian Model。通过某些似是而非的理由assume prior是均匀的,那么在MAP (Maximum a Posteriori)的formulation下,你还可以得到同样的结论。

    (5) 基于信息论的模型——Information Theoretical Model 在高斯分布假设下,求对给定数据的information最高的x。或者说,知道x后,对信源的uncertainty(entropy)最小。

    (6) 动力学模型——Kinematic Model

    (6.a) 聚合运动模型:假设这些点可以自由运动,并且它们之间存在相互引力作用,这些点在运动中最后聚在一点上,停止运动。在某些形式的引力作用下,这些点最后聚在均值位置。

    (6.b) 势阱模型:假设这些点是固定的,它们相互之间存在引力作用。从另外一个意义上说,每个点构成一个场源,并且在周围空间激发引力势。则在某些引力形式下,所有点的叠加引力场的势阱位于均值位置。这时候,如果让一个新的点在场中自由运动,最终它会静止在均值的地方。当然,对偶的,你可以考虑一个斥力场以及相应的势垒的位置,结果也是相同的。不过在涉及learning的文献中,通常喜欢energy minimization。 
     
    (6.c) 可以建立热力学模型(也称为统计力学),那些点是一个热平衡状态的某个瞬时观测。进一步的,通过波尔兹曼定律把热力学能量和概率建立联系。那么就可以建立一个既有统计意义,也有物理意义的模型。

    (7) 随机模型——Stochastic Model 更复杂的,你可以假设一个一定温度下的热力学粒子的随机运动。这个粒子在运动过程中,在空间各处都可能出现。在无限长的时间中形成一个几率分布,其峰值位置位于均值。
     
    虽然,这么写有些时候确实是故弄玄虚,但是,某些时候对一些简单东西的深入发掘,也许真的能发现许多东西的内在联系呢。不论怎么说,一个东西的学术价值源于深入而有创造性的思考,而不是云遮雾罩。我希望,从这个blog里面,大家不要学歪了,应该体会的是各种不同的理论是如何相互联系在一起的。  
     
    第二篇
     

    对于一篇好的paper来说,我觉得下面几点都是不可缺少的要素:


    1) Motivation: 任何idea和design都不可能是空穴来风,必然有其源泉。一篇文章的idea究竟是如何思考得到的,应该在文章中给以令人信服的阐述,引导reviewer顺着你的motivation的思路进入你的idea,这样这篇paper更容易让reviewer所接受。有人认为一篇文章reviewer看不懂很好,其实恰恰相反。只有当reviewer真正明白了你的东西是有道理的,才可能给你很好的评价。他不一定需要明白所有的细节,但是他必须要明白你提出的东西为什么有道理。


    2) Idea: 这是一篇文章的灵魂,必须旗帜鲜明地强调,绝不能含糊。汤老师说:一篇好的paper能用一句话加以概括,指的就是文章有个鲜明的思想。而所谓烂paper,就是没有一个鲜明的主题,突出的思想,因而只能拼拼凑凑,含糊其辞。


    3) Theory: 有些领域也许不看重这个,但是对于我们来说,扎实的理论,深入的分析,肯定能为文章增色不少。以前,我曾经有过错误的观念,就是用了很多高深数学,让reviewer看得很“崇拜”的文章,就是好文章。这是很幼稚的想法。所谓好的理论,是离不开数学上的功力,但是其精髓并非用了多少炫目的数学工具,而是有没有对一个模型,一个算法其理论本质的独到的,入木三分的剖析。理论的威力不是显示在炫耀上面,而是体现在它能帮助你分析问题的核心,指出各种现象的联系。


    4) Illustration: 洋洋洒洒千言万语,或者重重叠叠无数公式,有时并不能帮助读者理解问题的中心,而有时一个精心设计的示意图能独具奇效。再次强调:一篇好的文章是要让人明白,而不是让人糊涂。图的设计以清晰表达为宗旨,不是玄妙或者花哨。


    5) Experiment: 工科的paper一般少不了这个。实践是检验真理的标准。把实验效果做得很好,我想每个作research的人都知道这个。大部分paper实验效果都不错的,否则就不贴出来了:-D。 因此,实验部分的竞争,更注重实验方案的精心设计。这里面有两点:第一是实验要有很强的目的性,每个实验都必须为了说明某个问题,不能无的放矢,随便做。第二是层次性,实验结果一步登天往往不能使人信服。我们实验室以前发paper的成功经验是:实验结果随着技术的逐渐加入,而渐次提高,让人明白每一个idea,每一个novelty都在起着应有的作用。至于整体上的显著提高,使所有技术共同作用的结果。


    我所做的工作,从工作本身来说,上面几点都下了功夫,无论是理论分析的深入程度,novelty和contribution,都起码令自己满意。但是写出来的draft,自己就很不满意了。犯了很多大忌。在blog上说说其中几点,和大家分享:

    1) 冗长,罗嗦:我写paper有时候有个缺点,被某个idea的兴奋冲昏头脑,喋喋不休在那说。回头一看,很多都是啰里啰唆的东西。甚至连abstract都有点这个毛病。这和我追求面面俱到有些关系。一篇好文章,每一句话写出来,就要有这句话的作用,不能仅仅觉得这句话不错就写上。文章篇幅有限,必须有所取舍。


    2)abstract已经推翻重写两次了,看来还需要推倒一次。虽然现在这个abstract写得比较有条理,比较清楚了,但是还是欠缺吸引力。我自己也负责审不少文章,知道一个reviewer对一篇文章的好坏判断首先来自abstract。这是文章的灵魂和眼睛。一定要写得能引起兴趣。对于abstract,我觉得必须达到这样的要求才是满意的:a)简洁,凝练,一点语病都不能有;b)让理论出身的reviewer看出文章的理论价值;c)让工程出身的reviewer认同这个方法有道理,能work;d)让看重idea的reviewer觉得这篇文章有创见。Abstract不长,但必须像艺术品一样,字字珠玑,精雕细琢。  


    3)文章结构显得平铺直叙,重点不突出,主题不鲜明。因为是初稿,先把东西写下来再说,所以有这个毛病。我不喜欢A+B的东西,所以在我的几篇重点文章里面,从framework的architecture到里面的component,从formulation到algorithm都是new的,可以说从上到下,由表及里都是novelty,几乎没有任何地方使用现成的算法。这也是我曾经为这个东西兴奋了一阵子的原因。但是,draft写出来后,发现导致主旨分散,内容庞杂,理论部分写了14页。这绝对是文章之大忌。必须细心设计行文主线,对文章进行重构。

    (1)风格:要深入浅出,忌曲高和寡。通过大量数学把文章搞得很深奥,这在computer vision的会议中是有很大风险的风格。往往招致reviewer的反感,他看不懂,于是就用荒唐的理由拒掉文章。即使reviewer是错的,可是错已铸成,便难以挽回了。好的文章,自然少不了深入的数学分析,但是能够用为大家所接受的语言对其精髓进行表述,而非流于数十条数学公式,同样重要。深入后而能浅出,此等文章方为上品。

    (2)实验:要循序渐进,忌一蹴而就。在实验时,给出两个结果,一个是传统的,一个是你的新算法的,如果后者比前者好很多,所引起的未必是reviewer的惊叹,而往往是他们的怀疑。如果结果分成多个层次显现,每一处改进导致结果的一个进步,多个量变构成质变,这样方能使人叹服。

    (3)讨论:重点突出,深广兼备。文章的亮点自然要浓墨重彩的展现,跟文章有关的其他地方也不可以掉以轻心。reviewer据掉你的文章的时候,往往不是因为亮点不足,而是找出了某个次要地方的问题。对于高级别的会议,文章推出之前,必须所有方面都做到无懈可击,从源头封住reviewer的批评。一个漏洞,即使不是很险要,有时也足以致命了。而且,不但要杜绝内伤,外伤也务必注意,所有跟这个方法有联系的其他东西都要详加调研,在文中以理论和实验形式加以比较,从根本上堵住reviewer对你的工作的novelty的攻击。

    总括而言,成功文章需要具备下面的各个要素:

    (1) 严谨的理论支持

    (2) 新颖有趣的立意

    (3) 深入浅出的论述

    (4) 层次分明的实验

    (5) 面面俱到的比较

    April 25

    沉痛悼念偶的手机

    从大二到现在陪伴偶若干年了,呼呼~~
    丢失了。。。
    呀呀的
    @#$@$#@$$#@$#@$%^
    郁闷一下!
     
    April 24

    苏州二日游

    先占住
     
    唉~突然发现居然有个酱紫的空白东东占着位子,自己汗一个,呼呼~~
    现在也懒得写了,还好有些照片可以看看,呵呵~~总之这次玩得还不错,嘿嘿~~
    April 07

    My current life status, just for fun :)

    This Is My Life, Rated
    Life: 7.3
    Mind: 7.8
    Body: 8.6
    Spirit: 7.5
    Friends/Family: 5.3
    Love: 1.5
    Finance: 7.1
    Take the Rate My Life Quiz
    April 06

    经济危机,呼呼~~

    距离20号还有半个月,偶就提前感受到了经济危机的威胁,呼呼~~始料未及。
    以后得考虑记账了,市场经济也不能太过自由,呵呵~~计划经济的宏观调控还是必需的,嘿嘿~~