香农熵:大自然中信息交流法则的基本约束

量子认知 2022-09-08 00:00:09

香农熵(Shannonentropy),又称为信息熵,由克劳德-香农提出。信息到底是什么?克劳德-香农首次提出,其基本要素是惊喜。

如果有人告诉你一个你已经知道的事实,结果是:实际上他们基本上什么也没告诉你,你没有惊喜。而如果有人向你透露了一个隐秘的东西,那么可以说:确实是向你传达交流了一些值得你惊喜的信息。

有人也许会问:这样的差别在哪里?这种差别是在于克劳德-香农所提出的信息理论的核心。他在1948年的一篇划时代的论文《通讯的数学原理》中,提供了一个严格的数学框架,用于量化准确发送和接收信息所需的信息量,这是由预期信息可能表达的不确定性程度所决定的。

为了传达交流一系列的随机事件,譬如抛一枚硬币,你需要使用大量的信息,因为这些信息没有结构。香农熵衡量了这一基本的约束。

以投掷一枚硬币的两种不同的简单情况来举例说明。在第一种情况下,有一枚特别的硬币,或者说骗人的硬币,两面都是一样的,或两面都是正面、或两面都是反面。如果把它投掷两次。需要多少信息来传达这个结果呢?实际是:完全不需要,因为在得到这种信息结果之前,你已经完全可以确定这两次投掷的结果,无论怎么投掷翻转,结果或都是正面、或都是反面。

在第二种情况下,是一枚普通的硬币,通常的硬币都是一面是正面,另一面是反面,正面与反面是不一样的。现在将它投掷两次。那么可能存在有四种结果:正正、反反、正反、反正。如果我们用二进制代码来表示结果:用0代表正面,用1代表反面,则有:00、11、01、10。每种信息需要两个二进制代码的比特来表示。

有人可能会问,这体现有什么意义呢?在第一种情况下,你对信息的内容有完全的确定性,你不需要任何比特来传输这个信息,也就是说,需要的是零个比特来传输它。在第二种情况下,你有1/4的机会猜到正确的答案,即25%的确定性,而信息需要两个比特的信息来解决这个模糊性、不确定性。更为普遍来讲,你对信息源所要表达的内容了解得越少,它所传递的信息就越多。

香农是第一个在数学上精确地说明这种关系的人。他在一个公式中捕捉到了这一点,这个公式计算了传递信息所需的最小比特数,一个后来被称为香农熵的阈值。他还表明,如果发送者使用的比特位数小于一个最小值,那么这个信息将不可避免地被扭曲或失真。

加州大学圣地亚哥分校的信息理论家塔拉-贾维迪(TaraJavidi)评价香农说:"他有这种伟大的直觉,即当你对认知某件事情感到最惊讶的时候,也就是信息量最大的时候。"

香农熵中的术语"熵"是从物理学中借用来的,在物理学中,熵是对无序的一种衡量。譬如一片云比一片冰的熵更高,因为云比冰的立方体晶体结构允许有更多的方式来排列水分子,云比冰更为无序。同样的,一个随机信息具有较高的香农熵,它的信息可以有较多的排列方式,而遵守一定模式的信息有较少的排列方式,具有较低的熵。在物理学和信息论中,熵的计算方式也有形式上的雷同之处。在物理学中,熵的计算公式包括对可能的物理状态进行对数计算;在信息论中,熵是可能事件结果的对数。

香农熵的对数公式掩盖了它的简单性,因为另一种思考香农熵的方式是平均需要多少个"是"或"否"的问题的数量来确定一条信息的内容。

比方说,设想两个气象站,一个在广州,另一个在上海。每个气象站都想把自己城市的七天预报发给对方。广州几乎总是阳光明媚,这意味着广州气象站对预报的内容有较大的信心。上海的天气较不确定,出现晴天的机会可能是接近一半对一半的几率。

传递每七天的预报需要多少个是或否的问题?预报中的七天都是晴天吗?对于广州的气象站来说,比较容易回答这个问题的可能的答案。如果答案是肯定的(而且很有可能是肯定的),广州气象站就可以只通过一个问题来确定这个预报。但是对于上海气象站来说,几乎需要一天一天地预报。第一天是晴天吗?第二天又怎么样?……

信息内容的确定性越高,平均来说,你需要确定的"是"或"否"的问题就越少。

再举个例子,考虑两个版本的字母游戏。在第一个版本中,从英文字母中随机选择了一个字母,让你能猜一下。如果你使用最好的猜测策略,你平均要花4.7个问题才能得到它。(一个有用的第一个问题是:"这个字母是在字母表的前半部分吗?")

在游戏的第二个版本中,你不是猜随机字母的值,而是要猜实际英语单词中的字母。现在你可以调整你的猜测,利用一些字母比其他字母出现得更频繁的事实("这是元音吗?"),以及知道一个字母的价值有助于你猜测下一个字母的价值(q几乎总是跟着u)。香农计算出英语语言的熵是每个字母2.62位,即2.62个是或不是的问题,远远低于每个字母随机出现时所需的4.7位。换句话说,模式减少了不确定性,这使得用相对较少的信息进行大量的交流成为可能。

这正如,用不同的文字写的同一篇文章,一个版本是用中文写的,一个版本是用英文写的。由于汉字的信息量较大,中文文章所用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比英文字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸空间要少。

值得注意的是,在诸如此类的例子中,你可以提出更好或者更坏的问题。香农熵设定了一个不可侵犯的底线:这就是传达一个信息所需的绝对最小比特数,或者说是或不是问题的最少数量。

贾维迪评价说:"香农指出,存在着像光速一样的一个基本约束的东西。""他表明,香农熵是一种基本的限制,即我们可以在多大程度上压缩一个信息来源,而不会使其有失真或丢失的风险。"

香农熵在今天的许多应用场合作为了一种标准,包括在信息压缩技术领域中。例如,你可以压缩一个大型电影文件以便于上传或下载,这要归功于这样一个事实,这是因为像素颜色具有一个统计模式,就像英语或中文语言的单词那样。科技人员可以为每一帧的像素颜色模式建立概率模型。这些模型可以计算出香农熵,方法是为这些模式分配权重,然后对所有可能出现的像素的权重取对数。这个值告诉你"无损"压缩的极限,在保证你“不失去”有关其内容信息的前提下,这个电影文件可以被“不失真压缩”的极限值。

任何压缩算法的性能都可以与这个极限约束进行比较。如果你离它还很远,那么你就还有空间去努力寻求更好的算法。如果你已接近于这个极限约束,你就知道这个反映大自然的信息法则使你难于再做得更好。

0 评论: 0 阅读:17