MEM(最大熵模型)
最大熵原理
最大熵原理是根据样本信息对某个未知分布做出推断的一种方法。日常生活中,很多事情的发生表现出一定的随机性,试验的结果往往是不确定的,而且也不知道这个随机现象所服从的概率分布,所有的只有一些试验样本或样本特征,统计学常常关心的一个问题,在这种情况下如何对分布作出一个合理的推断?最大熵采取的原则就是:保留全部的不确定性,将风险降到最小。在金融理论中,一个类似的教训是,为了降低风险,投资应该多样化,不要把所有的鸡蛋都放在一个篮子里。
吴军(2006)举了一个例子。对一个均匀的骰子,问它每个面朝上的概率分别是多少。所有人都会说是1/6。这种“猜测”当然是对的,因为对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法,你不应该假设它被做了手脚。从信息论的角度讲,就是保留了最大的不确定性,让熵达到最大(从投资的角度来看,这就是风险最小的做法)。但是,如果这个骰子被灌过铅,已知四点朝上的概率是1/3,在这种情况下,每个面朝上的概率是多少?当然,根据简单的条件概率计算,除去四点的概率是 1/3外,其余的概率都是 2/15。也就是说,除已知的条件(四点概率为 1/3)必须满足外,对其它各点的概率,我们仍然无从知道,也只好认为它们相等。这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。
回到物理学例子中。在涉及物理系统的情形中,一般要确定该系统可以存在的多种状态,需要了解约束下的所有参数。比如能量、电荷和其他与每个状态相关的物理量都假设为已知。为了完成这个任务常常需要量子力学。我们不假设在这个步骤系统处于特定状态;事实上我们假定我们不知道也不可能知道这一点,所以我们反而可以处理被占据的每个状态的概率。这样把概率当作应对知识缺乏的一种方法。我们很自然地想避免假定了比我们实际有的更多的知识,最大熵原理就是完成这个的方法。
这里可以总结出最大熵对待已知事物和未知事物的原则:承认已知事物(知识);对未知事物不做任何假设,没有任何偏见。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设(不做主观假设,这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。