Why VM Snapshots Are Unsafe for Transactional Databases

对于 DevOps 工程师和系统管理员而言，虚拟机 (VM) 快照是一项基础工具。它们提供了一种快速、便捷的方法，可以在进行高风险补丁更新、重大配置更改或应用程序部署之前捕获服务器的状态。如果出现问题，只需几秒钟即可完成回滚。

然而，当同样的方法应用于事务型数据库（如 PostgreSQL、MySQL、Oracle 或 Microsoft SQL Server）时，VM 快照就会从“安全网”变成“定时炸弹”。

依赖标准的虚拟机管理程序 (Hypervisor) 快照进行数据库备份是导致数据损坏、页面撕裂 (torn pages) 和不可恢复的生产环境宕机最常见的原因之一。在本文中，我们将探讨虚拟机管理程序与数据库引擎之间的架构冲突、快照期间数据损坏的机制，以及安全备份虚拟化数据库所需的工程最佳实践。

架构冲突：虚拟机管理程序 vs. 数据库引擎

要理解为什么 VM 快照会危及数据库，我们必须首先检查这两个系统如何管理状态和 I/O 操作。

虚拟机管理程序如何执行快照

当虚拟机管理程序（如 VMware ESXi、Microsoft Hyper-V 或 KVM）执行快照时，它并不会复制磁盘。相反，它会将当前的虚拟磁盘文件（例如 .vmdk 或 .vhdx）冻结为只读状态，并创建一个新的增量磁盘（差异磁盘）。所有后续的写入操作都会指向这个增量磁盘。

当删除快照时，虚拟机管理程序必须将增量磁盘中的数据提交（合并）回基础磁盘。标准快照完全不了解客户操作系统内运行的应用程序。它们只是在微秒级精确捕获磁盘当前的状态。

事务型数据库如何管理状态

事务型数据库是围绕 ACID 特性（原子性、一致性、隔离性、持久性）设计的。为了在保持 ACID 合规性的同时实现高性能，数据库不会立即将每笔事务直接写入磁盘上的主数据文件。相反，它们使用复杂的、多层架构：

缓冲池 / 共享缓冲区 (Buffer Pool / Shared Buffers)： 数据被读取到系统内存中并在其中进行修改。
预写式日志 (WAL) / 重做日志 (Redo Logs)： 更改会按顺序写入磁盘上的高度优化日志文件中，以确保持久性。
检查点 / 惰性写入 (Checkpoints / Lazy Writers)： 数据库会定期将内存中修改过的（脏）页面刷新到磁盘上的实际数据文件中。

由于这种架构，磁盘上的物理数据文件几乎总是与数据库的实际状态不同步。数据库的真实状态仅作为磁盘上的数据文件、WAL/重做日志以及当前驻留在内存中的数据的组合而存在。

危险区域：VM 快照期间会发生什么

当您对数据库服务器进行标准 VM 快照时，您捕获的是一种崩溃一致性 (crash-consistent) 状态。

崩溃一致性 vs. 应用程序一致性

崩溃一致性快照相当于直接拔掉物理服务器的电源线。磁盘状态被捕获了，但内存中的内容丢失了，且正在传输到存储控制器的数据也被突然切断。

虽然现代数据库旨在通过重放预写式日志来从意外断电中恢复，但将崩溃恢复作为主要的备份策略是非常危险的。如果您的数据库跨越多个虚拟磁盘（例如数据文件在 D 盘，WAL 在 E 盘），虚拟机管理程序可能无法在完全相同的微秒内对两个磁盘进行快照。如果 WAL 磁盘快照的捕获时间比数据磁盘快照晚了哪怕几分之一秒，数据库在恢复时就无法协调序列号，从而导致致命的损坏。

对高事务系统的“VM Stun”效应

快照创建过程——更重要的是快照合并过程——会导致一种被称为“VM Stun”（虚拟机停顿）的现象。

为了安全地将 I/O 从基础磁盘切换到增量磁盘，虚拟机管理程序必须短暂地暂停（stun）虚拟机。对于负载较轻的 Web 服务器，这种停顿可能持续 10-50 毫秒，几乎无法察觉。然而，对于具有海量 I/O 的高吞吐量数据库，合并大型增量磁盘可能会导致虚拟机停顿数秒。

在 VM 停顿期间：
* 网络连接中断，导致应用程序超时。
* 高可用性集群（如 SQL Server Always On、PostgreSQL Patroni 或 MySQL Galera）会错过心跳检查。
* 集群可能会认为停顿的节点已死，从而触发不必要且具有破坏性的故障转移（脑裂场景）。

页面撕裂与 I/O 不对齐

数据库引擎通常以特定的页面大小（例如 PostgreSQL 和 SQL Server 为 8KB，InnoDB 为 16KB）写入数据。然而，底层操作系统和存储阵列以更小的块（例如 4KB 或 512 字节）处理 I/O。

如果虚拟机管理程序恰好在数据库写入 8KB 页面时进行快照，快照可能会捕获新数据的前 4KB 和旧数据的后 4KB。这会产生页面撕裂 (torn page)。当您尝试恢复快照时，数据库读取该页面会校验和验证失败，并将数据库标记为损坏。

特定数据库引擎的现实后果

不同的数据库引擎对崩溃一致性快照的反应各不相同，但在生产环境中，没有哪种引擎能优雅地处理这种情况。

PostgreSQL： PostgreSQL 严重依赖 pg_wal 目录。如果快照捕获的数据目录 ($PGDATA) 和 WAL 不同步，PostgreSQL 将无法启动，并抛出 PANIC: could not locate a valid checkpoint record 错误。
MySQL/InnoDB： InnoDB 使用双写缓冲区 (doublewrite buffer) 来防止页面撕裂，这提供了一定的崩溃一致性保护。然而，如果 ibdata1 文件和 ib_logfile 捕获时不同步，InnoDB 引擎在恢复时将会崩溃。
Microsoft SQL Server： SQL Server 对 I/O 冻结非常敏感。如果没有适当的 VSS (卷影复制服务) 集成，从标准 VM 快照恢复 SQL Server 通常会导致数据库处于“可疑”状态并破坏日志链，从而摧毁您的时间点恢复 (PITR) 能力。

安全备份虚拟化数据库的最佳实践

为了保护事务型数据库，您必须从崩溃一致性备份转向应用程序一致性 (application-consistent) 备份。这要求备份机制与数据库引擎进行通信，强制其在进行快照时将内存刷新到磁盘并暂时暂停 I/O 操作。

1. 利用应用程序感知静默 (VSS 和 fsfreeze)

对于 Windows (SQL Server)：
始终确保您的备份解决方案利用 Microsoft 卷影复制服务 (VSS)。当触发 VSS 感知备份时，SQL Server VSS Writer 会冻结数据库 I/O，将挂起的事务刷新到磁盘，并确保快照完全符合应用程序一致性。

对于 Linux (PostgreSQL / MySQL)：
Linux 没有 VSS 的原生等效功能。要实现应用程序一致性，您必须结合虚拟机管理程序的客户机工具（如 VMware Tools）使用预冻结 (pre-freeze) 和后解冻 (post-thaw) 脚本。

以下是一个适用于 PostgreSQL 15+ 的 VMware pre-freeze-script 示例，可安全地为快照准备数据库：

#!/bin/bash
# /usr/sbin/pre-freeze-script
# 确保此脚本具有可执行权限 (chmod +x)

# 1. 通知 PostgreSQL 准备备份
su - postgres -c "psql -c "SELECT pg_backup_start('vm_snapshot', true);""

# 2. 将文件系统缓冲区刷新到磁盘
sync

# 3. 冻结文件系统（假设数据位于 /var/lib/pgsql）
fsfreeze -f /var/lib/pgsql

以及相应的 post-thaw-script 以恢复操作：

#!/bin/bash
# /usr/sbin/post-thaw-script

# 1. 解冻文件系统
fsfreeze -u /var/lib/pgsql

# 2. 通知 PostgreSQL 备份完成
su - postgres -c "psql -c "SELECT pg_backup_stop();""

2. 使用原生数据库备份工具

虽然应用程序一致性快照优于标准快照，但它们仍然存在 VM 停顿的风险。数据库备份最安全的方法是使用独立于虚拟机管理程序运行的原生流式备份工具。

PostgreSQL (pg_basebackup)：

pg_basebackup -h localhost -U replication_user -D /mnt/backups/pg_backup -Ft -z -P

MySQL/MariaDB (Percona XtraBackup / Mariabackup)：
这些工具通过复制数据文件并同时跟踪重做日志中的更改，进行热备份且不会阻塞操作。

mariabackup --backup --target-dir=/mnt/backups/mysql_backup --user=root --password=SecurePass

SQL Server (T-SQL)：

BACKUP DATABASE [ProductionDB] 
TO DISK = N'Z:BackupsProductionDB.bak' 
WITH NOFORMAT, NOINIT, NAME = N'ProductionDB-Full Backup', 
SKIP, NOREWIND, NOUNLOAD, COMPRESSION, STATS = 10;
GO

3. 通过日志归档实现时间点恢复 (PITR)

每日快照或全量备份只能保护您到备份完成的那一刻。如果您的数据库在下午 4:00 崩溃，而上一次快照是在凌晨 2:00，您将丢失 14 小时的事务数据。

为了实现真正的企业级弹性，您必须将完整的应用程序一致性备份与持续的日志归档（每隔几分钟备份一次 WAL、重做日志或事务日志）相结合。这允许数据库管理员将数据库恢复到灾难发生前的特定分钟，甚至特定的事务 ID。

使用 CloudSave 的企业级备份策略

在数十台数据库服务器上管理自定义的预冻结脚本、原生转储的 cron 作业以及日志传输，对于 DevOps 团队来说是一场运维噩梦。这就是像 CloudSave 这样的企业级平台变得至关重要的原因。

CloudSave 弥合了虚拟化与数据库架构之间的鸿沟。CloudSave 不依赖盲目的虚拟机管理程序快照，而是利用与 SQL Server、PostgreSQL、MySQL 和 Oracle 原生集成的应用程序感知代理。

当 CloudSave 启动备份时：
1. 它通过原生 API（如 Windows 的 VSS 或 Linux 的原生 WAL 流）直接与数据库引擎通信。
2. 它协调将内存缓冲区刷新到磁盘，而不会导致破坏性的 VM 停顿。
3. 它安全地捕获数据文件并自动管理事务日志截断。
4. 它持续备份事务日志，只需点击几下即可实现细粒度的时间点恢复 (PITR)。

通过将应用程序一致性的复杂性卸载给 CloudSave，数据库管理员和系统管理员可以保证数据完整性，而无需牺牲生产集群的性能或可用性。

结论

虚拟机快照是基础设施管理的绝佳工具，但它们从根本上与事务型数据库的 ACID 要求不兼容。依赖崩溃一致性的虚拟机管理程序快照会使您的组织面临页面撕裂、复制链断裂和灾难性数据丢失的风险。

为了保护您的关键任务数据，您必须实施应用程序感知静默，利用原生数据库备份方法，并维护持续的事务日志归档。通过采用专门构建的企业备份解决方案，您可以确保数据库保持高可用性、完全可恢复且绝对安全。

为什么虚拟机快照对于事务型数据库而言并不安全：DBA 数据完整性指南