新一代的二进制序列化格式

发布时间：2021-03-31 12:33:09 所属栏目：动态来源：互联网

导读：写机器读，用 Yaml 机器写，人读，用 JSON 机器写，机器读，用 JSON 或者 Protobuf JSON 作为几乎每一个语言都支持的序列化格式，在很多地方都得到了广泛应用。但有个弊端，JSON 里面充斥了大量的大括号、中括号和双引号，导致冗余的字符太多，数据量非常大

写机器读，用 Yaml
机器写，人读，用 JSON
机器写，机器读，用 JSON 或者 Protobuf

JSON 作为几乎每一个语言都支持的序列化格式，在很多地方都得到了广泛应用。但有个弊端，JSON 里面充斥了大量的大括号、中括号和双引号，导致冗余的字符太多，数据量非常大，在对传输速度有高要求的场景下，数据量越大，占用的传输带宽就越大，单位时间传输的数据也就越少。

Protobuf 是 Google 开发的一个二进制序列化格式，与 JSON 相比，Protobuf 的数据非常精简，甚至连数据的字段名都没有。例如有这样一段数据：

这个二进制数据只有值，但没有字段名，所以要解析这些数据，必须在代码里面额外把字段名带上。所以需要定义一个xxx.proto文件，在里面标记每一个字段的信息。在任何时候任何语言中，需要序列化和反序列化的地方，都要提前使用protoc命令，基于这个.proto文件，生成一个xxx_pb2文件，通过从这个 xxx_pb2文件中导入数据对象来对数据进行处理。

因此，我们说，proto 格式，虽然确实精简了网络中的数据传输量，但却给开发者增加了相当大的工作量。

而最近，又新出来一种二进制序列化格式：CBOR，它的数据比 JSON 小，但是开发起来又比 Protobuf 简单得多。

我们来看看使用 CBOR 对上面的数据进行序列化操作。首先在 Python 中安装CBOR：

意，打印出来的是二进制数据，不是字符串。可以看到，数据是自带字段名的，字段名与值之间会有特殊的字符进行分割，CBOR 能够自动识别这些特殊符号，从而区分字段名和字段值。

经过我的测试，一个150MB 的大 JSON文件，读入到内存，然后重新通过 CBOR 序列化以后写文件，这个文件大小可以缩减到60MB 左右。虽然压缩比例不如 Protobuf，可读性不如 JSON;但是压缩比例比 JSON 高，可读性比 Protobuf 好，而且几乎不增加额外工作量。

大家在写微服务或者网站前后端通信的时候，可以考虑试一试 CBOR — Concise Binary Object Representation | Overview[1]。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

避雷指南做私域最常犯	DTB出海如何穿越变型
国网天津电力开发应用	新安怀支撑贸易数字化