4.1 摩尔斯码_数据压缩入门-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

4.1 摩尔斯码

在讨论真实数据的传输之前，让我们先回到电报和摩尔斯码的时代。

从1836年着手，3位美国人——画家Samuel F. B. Morse、物理学家Joseph Henry和机械师Alfred Vail——共同发明了第一套电报系统。这套系统通过电线来发送电流脉冲可以听一下这个示例，https://www.youtube.com/watch?v=xsDk5_bktFo。，这些脉冲与位于电报系统接收端的电磁体进行交互，产生了可以听得见的声音，或者人们在发声装置下放一条以固定速度运行的纸带，纸带就能将收到的信号记录下来。

电报是一项了不起的发明，因为它可以远距离地传递人类信息。慢慢地，电线消失了（见图4-1），它最终演变成了人们口袋中的移动设备。

图4-1：1897年5月13日，在弗拉特霍姆岛的一次演示中，英国邮政工程师们在检查Guglielmo Marconi的无线电报设备。这是世界上第一次跨海无线电传输演示，从莱弗诺克角到弗拉特霍姆岛，距离大约为4.8千米。图片来源：维基百科

有了设备后，发明者遇到的问题就是如何表示人类的想法，并且这种表示方法是电流信号能传输的，比如说用语言。对操作人员来说，这个设备本身的操作方法很简单：按下电报按钮就能进行连接并通过电线传输电流；松开按钮，电流传输就中断。即使早在19世纪二进制编码还没有发明时，这套系统已经在应用同样的思想来传递信息了。

或许，最简单的编码文本信息的方法，就是用数字1~26来编码A~Z的英文字母。这样，我们就能通过脉冲的次数和组合来确定传送的是哪个数。例如，可以将“THE HAT”翻译为20 - 8 - 58 - 1 - 20。实际上，要想使系统能真正工作，还要有方法来区分单词、空格和标点符号，当然还有结束符（end-of-message），但通过对单词进行编码，我们已经抓住了问题的实质。

不过，有一点要记住，那就是所有这些信号的传输都需要人不停地按电报设备的按钮。因此，发送“THE HAT”与发送“FAT CAT”或“TIP TOP”所需要的人工操作次数相同。如果一个邮政局每天要发100~200封平均50个词的电报，这件事情就会令人抓狂。显然，这是因为发送一次信息所需要的人工操作次数太多。物理硬件（发报机设备）和人工硬件(也就是操作人员的手腕）的磨损比预期的要快，解决方法则是使用统计来减少工作量。

我们都知道，在英语中有一些字母比另外一些字母使用得更频繁，比如字母E会在12% 的时间里用到，而字母G则只在2% 的时间里用到。如果操作人员每天发送的字母“E”更多，那么是不是应该让这样的操作变得更快、更简单呢？

最终，摩尔斯码被发明出来。

摩尔斯码为英语字母表中的每一个字符都分配了或长或短的脉冲，一个字母用得越频繁，其编码也就越短、越简单。因此，英语中最常用的字母“E”的编码最短，用一个点表示；而字母“X”的编码毫无疑问则很长；所有的数字都用5个脉冲表示。图4-2显示了摩尔斯码的原始字符集。

图4-2：摩尔斯码根据各个符号在英语中出现的概率来为其分配点和划。一个符号出现得越频繁，其对应的编码就越短。这张图是摩尔斯码的一个早期版本，由电报公司专门为传输较小的信息集而设计。从那时起，摩尔斯码就一直在演变，现在的摩尔斯码看上去大不相同了

即使是追溯到19世纪，这也是对符号分配变长编码（variable-length codes，VLC）的最初实现之一，其目的则在于减少传输信息过程中所需要的总工作量。

有理由相信，在早期对信息论的研究中，克劳德•香农（他是摩尔斯码方面的专家）正是利用了这一概念，由此创造了一个新的技术领域“数据压缩”的第一代技术，这些都是在VLC的启发下产生的。