杂项/为什么中本聪不给比特币设计最终性

昨日刘教链公众号刊发原创文章《论比特币和以太坊的"宕机"》之后, 引发了一些对区块链工作原理感兴趣的朋友的热烈讨论. 其中, 魔笛手社区群主 Claire 提了一个好问题: 为什么中本聪不给比特币设计最终性(finality)呢? 或者说, 为什么中本聪设计的比特币没有显式最终性(explicit finality)呢?

透彻地了解这个问题, 需要对计算机科学的一个重要分支:分布式系统的发展历史和关键问题作一个全面了解和深入思考. 在刘教链所著《上帝掷骰子: 比特币史话》一书(https://leanpub.com/history-of-bitcoin 有售, 以下简称《史话》)第七章"拜占庭将军"用了 6 个小节的篇幅对这段往事做了较为全面的铺陈. 接下来, 笔者试着用简单的篇幅和精炼的逻辑, 来对上述问题做一个较为通俗易懂的解答.

中本聪发明比特币, 克服了什么关键困难, 或者说解决了什么关键问题? 去中心化共识问题, 或者叫做分布式一致性问题. 特别的, 比特币要解决的, 是如何在有人可能会掉链子(宕机, 掉线), 有人可能会作恶(人人皆佛魔两面)的不确定环境中, 不借助于一个中心权威或者说中央统治者, 就能自动达成共识(consensus)或者一致(consistency)的问题. 这个问题, 就是由计算机科学家 Leslie Lamport 在 1982 年的著名论文《拜占庭将军问题》中所指出和命名的"拜占庭将军问题".

最早意识到此问题的人, 并非 Leslie Lamport, 而是他的同事 Robert Shostak. 那是 1978 年. 从 1978 年到中本聪发表比特币白皮书的 2008 年, 整整 30 年, 整个人类计算机科学界, 没有人真正解决这个问题.

为什么这个问题如此难以解决? 也许有学过分布式系统的朋友会说, 当年 Lamport 就已经给出了解决方法了呀! 就是拜占庭容错(BFT)算法. 后来 1999 年的时候还有人继续改进该算法, 提出了实用拜占庭容错(PBFT)等新算法.

事实上, Lamport 的解题思路走向了一个错误的方向. 所有 BFT 类的算法, 都必须隐含一个假设, 节点时钟同步性假设. 否则, 就无法形成共识, 达成一致. 而这个隐含假设, 恰恰是自相矛盾的: 想作恶的人, 当然可以篡改他所控制的节点的时钟, 使之不同步. 要想满足这个假设, 就要取消拜占庭环境的设定, 那么, 拜占庭容错算法只能在非拜占庭环境中工作, 这解决方案是解了个寂寞! 而如果作了非拜占庭环境设定, 我们显然可以换用效率高出成百上千倍的算法来达成分布式一致性, 比如谷歌 Spanner 和微信后台所用的 Paxos 算法(史话》第六章第19话"时钟同步性").

你永远叫不醒一个装睡的人. 直到今天, 还有宣称去中心化的公链系统采用 BFT, PBFT 以及其他变体作为共识算法, 在错误道路上执迷不悟. 事实上, 到了 1985 年, 三个计算机科学家: 耶鲁的 Michael Fisher, MIT 的 Nancy Linch 和华威大学(英)的 Mike Paterson 联合发表了一篇名为《有一个错误进程即不可能达成分布式共识》的著名论文, 提出了著名的"FLP 不可能定理".

FLP 定理给了 BFT 类算法当头棒喝: 只要取消掉时钟同步性假设, 别说有人作恶了, 即便只是有人掉链子, 分分钟就把整个系统的共识搞崩溃.

路被堵死了. Lamport 知耻后勇. 你以为他奋发图强, 一举克服了时钟同步性依赖了吗? 不. 他好汉不吃眼前亏, 韩信能受跨下辱, 借坡下驴, 顺势躺平, 乖乖接受了这个五雷轰顶的现实. 1990-1998 年, 他提出了在非拜占庭环境下的高效共识算法 Paxos. 为啥花了这么久? 在《史话》第 27 话"美丽的小岛"有记述这段离奇而曲折的故事, 篇幅过长, 不再展开.

这一下子就过去了十年.

老天爷似乎总爱给越挫越勇的人更多的挫折和挑战, "增益其所不能". 就在 Lamport 关于 Paxos 算法的论文发表的同一年, 伯克利大学教授 Eric Brewer 提出了一个理论假说: 分布式系统, 无论如何, 都不可能同时做到这 3 点: 一致性(consistency), 可用性(availability), 分区容忍(partition tolerance).

看起来好像一个不可能三角形. 但是由于第三点不得不接受, 因为网络不可能 100% 可靠, 那么本质上就是二选一了: 你要一致性呢, 还是要可用性? 鱼翅, 我所欲也; 熊掌, 亦我所欲也. 二者不可得兼, 舍哪个而取哪个呢?

Paxos 选得啥? Paxos 选的是强一致性. 那么就意味着, 它必然, 一定, 不得不舍弃可用性. 舍弃可用性不意味着一个采用 Paxos 算法的系统总是在宕机, 但是它一定有机会宕机. 宕机, 就意味着要整体干预, 协调和重启. 也就意味着, 对中心化控制的依赖. 5 秒钟思考一下, 著名的"宕机链" Solana 宕机之后怎么办? 当然是项目方, 基金会出面协调全网重启啦! 它无法自我恢复.

同时, 别忘记了, Paxos 隐含的前提是始终同步性假设. 高性能, 强一致性的背后, 是极其精准的时钟同步. 谷歌 Spanner 系统甚至需要用原子钟来保证节点间分毫不差的计时. 这种系统, 是绝难推广到比特币所面临的拜占庭环境的.

Eric Brewer 的理论假说直到 2002 年才被 MIT 的 Seth Gilbert 和 Nancy Linch 成功证明. 自此成为人尽皆知的"CAP 定理".

90 年代互联网开始发展. 今天的很多互联网巨头在 90-99 年之间相继成立. 面对拜占庭问题, 互联网技术直接选择了"躺平", 向拜占庭将军问题举手投降, 直接建立公司级防火墙, 把坏人拒之门外, 营造非拜占庭环境, 用自己中心化控制的计算机组成分布式集群, 对外提供高性能的互联网服务.

在拜占庭将军问题面前, 产业界选择了投降. 和 Lamport 当年看到 FLP 定理证明之后的选择一样.

逃得过拜占庭将军问题, 却逃不过 CAP 问题. 产业界的实践并不晚于学术界. 只不过, Lamport 又一次当了"反指"(反向指标). 互联网系统的经典技术路线, 并不是像 Paxos 选择一致性, 而是反其道而行之, 选择可用性.

为什么? 很容易理解. 你可以接受互联网服务少量的数据不准确, 不及时(一致性出问题), 但不能接受互联网停止服务和拒绝服务(可用性出问题). 而且, 随着互联网用户规模和数据量的爆炸式增长, 保持全网数据的强一致性(时时刻刻处处一致)十分困难.

既要又要是难如登天的. 身段放软, 适当妥协是智慧的. 互联网界很自然地选择了向一致性开刀, 在强一致性上做折衷, 把强一致性弱化成经过一段时间之后达成一致, 也就是所谓的"最终一致性"(eventual consistency).

也即是说, 互联网系统总是能够回应用户的访问请求, 但是操作之后, 不保证会立刻得到想要的结果. 往往需要经过一小段时间 t, 数据才会同步更新到位. 比如, 笔者在刘教链公众号推送了这篇文章, 并不是第一时间所有读者都能立刻收到, 而是陆陆续续收到. 但是最终而言, 经过一段或长或短的时间, 大家都会收到一模一样(一致)的文章内容.

这个最终到达全局一致性的状态, 就叫做最终性(finality), 或者叫做"终局".

最终一致性走了和 Lamport 不同的道路, 为互联网大规模发展几十年铺平了道路. 但是, 它虽然解决了 CAP 问题, 却仍然只能在中心化管控的非拜占庭环境下工作.

好了, 现在让我们重新回到最初的问题, 拜占庭将军问题. 如果我们既要一致性(记账数据不可以出错), 又要可用性(系统不可以有任何宕机的可能性), 又是拜占庭环境(有掉链子节点和作恶节点), 也无法假设时钟同步性(任何节点都可能时间不准或者故意篡改时间), 那么这样一个分布式共识系统, 能被设计出来吗?

几乎所有人都会说不能. 而且越是掌握专业知识的人, 可能越笃信这样的系统是不可能存在的. 因为见识过其中的困难, 所以心中畏惧. 当 2008 年 10 月 31 日中本聪初次披露比特币白皮书时, 差不多每一个看到的人当时也都是这么想的.

中本聪给出的办法, 就是放弃(显式)最终性. 把最终一致性变成概率一致性(probabilisitic consistency), 把最终性变成概率最终性(probabilisitic finality), 即有一定概率达成一致, 有一定概率达到最终性, 且这个概率随时间向前流淌而迅速提高, 快速逼近于 100%, 但永远不会到达 100%. 从这个意义上讲, 也可以说, 中本聪把最终一致性里的"最终"二字所代表的一小段时间 t 推向了无穷远.

用数学的语言说, 就是对于任意的 t < 无穷大, 都有一致性的概率 p < 1, 而当 t -> 无穷大时, p -> 1. 这就是中本聪共识.

如果我们允许一致性概率 p = 1, 那么, 显式最终性或者最终一致性就是概率最终性的特例: 存在 t < 无穷大, 一致性的概率 p = 1.

如果中本聪共识中的概率收敛速度足够快, 那么不需要太久, p 就会非常非常接近于 1. 在比特币白皮书第 11 小节"计算"一节里, 中本聪计算过两个示例: 恶意算力占比 10% 时, 经过 10 个区块, 一致性概率就会达到 99.99988%; 占比 30% 时, 经过 50 个区块, 概率就会达到 99.99994%. (史话》附录B: 比特币白皮书刘教链译本)

随着时间的不断向前, 随着区块链的不断延长, 一致性概率会从 0.9, 0.99, 0.999 迅速增长, 不断逼近 0.9 循环小数, 即 1.

比特币不再定义"最终", 而把"最终"的定义留给用户, 留给我们. 这也意味着, 比特币的最终性, 也是主观的. 中本聪在白皮书中, 给出的乐观计算是一致性达到概率 99.9%, 只要错误或恶意算力占不高于 10%, 我们就只需要在交易进入区块后再延长 5 个区块也就是所谓的"6 个区块确认"就可以视为已经到达最够好的最终性了.

6 个区块, 大约是 1 个小时. 更乐观的人可以主观上视 3 个区块确认就足够好了. 更悲观的人也可以默默等待更久的时间.

比特币系统通过放弃设定一个强迫所有人接受的显式最终性, 转而仅提供一致性的概率计算, 而把何时接受共识交给每个用户的主观, 从而一举突破了 CAP 定理, FLP 不可能定理, 抛弃了对时钟同步性假设的依赖, 真正解决了拜占庭将军问题, 实现了真正去中心化的记账系统.

我们是否有可能继续攀登, 即保持和比特币同等级别的去中心化程度, 并解决拜占庭将军问题, 同时不放弃显式最终性, 通过确定性的算法和机制, 实现显式最终性呢? 对此笔者不太乐观. 直觉上感觉不放弃显式最终性解决拜占庭将军问题可能是一个类似于"发明永动机"的问题, 区别在于在计算机分布式系统领域, 目前还不知道何为"热力学第二定律".

更大的矛盾之处还在于: 如果扬弃了中本聪引入的工作量证明(PoW), 出于环保等任何政治正确的或其他方面的原因, 比如改为 PoS 或其他什么算法; 或者, 扬弃了中本聪引入的链式区块账本(区块链), 而是改用其他数据结构比如 DAG(图), 那么, 都将不可避免地, 必须, 不得不实现显式最终性, 否则, 不需要消耗巨大外部能量和代价的数据就会被轻易推翻, 颠覆和篡改. 这样一来, 在不得不实现的显式最终性和不得不克服的拜占庭将军问题二者之间, 真的能兼得吗? 如果实践和理论最终证明, 要显式最终性, 就无法克服拜占庭将军问题, 如果要克服拜占庭将军问题, 就必须舍弃显式最终性, 那么, 我们又将面临一个怎样的未来? 是巨大的挫折, 还是理论极限的再次突破?

行文至此, 笔者心中不由地冒起冷汗, 耳边仿佛回响起中本聪当年(2009.2.15)说过的话: (《史话》第38话"更好的黄金")

"很多人自动忽视电子货币, 将其视为损失的原因, 因为自 20 世纪 90 年代以来, 所有(做这一方面)的公司都倒闭了. 很明显, 仅仅是因为那些系统的中心化控制的本质让他们在劫难逃. 我认为这是我们第一次尝试去中心化, 基于非信任的系统. "