← 返回索引 · 2026-02-15 · 0009

基于事件溯源的撮合引擎状态重建与容灾设计（摘要）

TL;DR

1. 问题本质：性能要内存，可靠性要持久化

交易系统的撮合核心之所以快，是因为它把订单簿（Order Book）当成内存数据结构来操作。但这也意味着：一旦进程崩溃、机器断电、甚至一次计划内重启，订单簿瞬间丢失。

直觉解法是“每次状态变更都同步写数据库”，但这会把瓶颈从撮合逻辑转移到磁盘 I/O、事务与锁竞争上，吞吐从百万级掉到千级并不稀奇。所以正确方向通常是：撮合仍在内存跑，但持久化要做到不拖慢撮合。

把状态“还原”为事件重放的结果

这套方法成立的关键前提是确定性：同一个初始状态 + 同一条严格有序的事件流 → 必然得到同一个最终订单簿。也因此，“事件顺序”比事件内容更敏感。

WAL（Write-Ahead Logging）：更新内存前先持久化事件。否则崩溃在最尴尬的瞬间会出现“内存改了、日志没落盘”或相反，导致恢复不一致。
全局严格有序：多网关/多线程接入时，必须有一个“序列器（Sequencer）”对事件分配单调递增的 Sequence ID，并以此作为重放顺序。
确认语义：写入日志系统时 ack 级别会直接影响 RPO 与延迟。金融系统通常宁愿选择更强的确认（更低丢失风险），再通过网络/集群调优降低额外延迟。
幂等与去重：现实世界会重试、会超时。事件里要有可去重的标识（例如 client_order_id / request_id），恢复/重放必须能正确处理重复输入。

只有事件日志会遇到一个必然问题：日志无限增长，重放耗时越来越长。快照的作用是定期把“某一时刻的完整订单簿状态”落盘（或写对象存储），恢复时：

工程上需要重点关注：快照频率（RTO vs 运行开销）、快照一致性（不要拿到半更新状态）、以及快照存储介质的可靠性（本地 SSD vs 对象存储）。

承接页 CTA

“事件溯源 + 快照/重放”能解决撮合引擎的可恢复性，但真正落地还会牵扯到序列器高可用、日志系统选型、风控/清算下游一致性、以及故障切换演练。如果你在做交易系统整体规划/重构，可以从解决方案页快速对齐模块与演进路径： https://technologynova.org/solution/