Why VM Snapshots Are Unsafe for Transactional Databases

За DevOps инженери и системни администратори, моментните снимки (snapshots) на виртуални машини (VM) са фундаментален инструмент. Те предоставят бърз и удобен начин за улавяне на състоянието на сървъра преди рискова корекция (patch), мащабна промяна в конфигурацията или внедряване на приложение. Ако нещо се обърка, възстановяването отнема секунди.

Въпреки това, когато същата методология се прилага към транзакционни бази данни—като PostgreSQL, MySQL, Oracle или Microsoft SQL Server—снимките на виртуални машини се превръщат от предпазна мрежа в тиктакаща бомба със закъснител.

Разчитането на стандартни хипервайзорни снимки за архивиране на бази данни е една от най-честите причини за повреда на данни, „разкъсани“ страници (torn pages) и невъзстановими прекъсвания на продукционната среда. В тази статия ще разгледаме архитектурния сблъсък между хипервайзорите и двигателите на бази данни, механиката на повредата на данни по време на снимки и най-добрите инженерни практики, необходими за безопасно архивиране на виртуализирани бази данни.

Архитектурният сблъсък: Хипервайзори срещу двигатели на бази данни

За да разберем защо снимките на виртуални машини застрашават базите данни, първо трябва да разгледаме как двете системи управляват състоянието и I/O операциите.

Как хипервайзорите изпълняват моментни снимки

Когато хипервайзор (като VMware ESXi, Microsoft Hyper-V или KVM) направи снимка, той не копира диска. Вместо това, той „замразява“ текущия файл на виртуалния диск (напр. .vmdk или .vhdx) в състояние „само за четене“ и създава нов делта диск (диск за разлики). Всички последващи записи се насочват към този делта диск.

Когато снимката бъде изтрита, хипервайзорът трябва да запише (консолидира) данните от делта диска обратно в базовия диск. Стандартните снимки не са наясно с приложенията, работещи в рамките на гост операционната система. Те улавят състоянието на диска точно такова, каквото е в тази микросекунда.

Как транзакционните бази данни управляват състоянието

Транзакционните бази данни са проектирани около ACID свойствата (Атомарност, Консистентност, Изолация, Устойчивост). За да постигнат висока производителност, като същевременно поддържат ACID съответствие, базите данни не записват всяка транзакция директно в основните файлове с данни на диска веднага. Вместо това те използват сложна, многостепенна архитектура:

Buffer Pool / Shared Buffers: Данните се четат и модифицират в системната памет.
Write-Ahead Log (WAL) / Redo Logs: Промените се записват последователно в силно оптимизиран лог файл на диска, за да се гарантира устойчивост.
Checkpoints / Lazy Writers: Периодично базата данни изчиства модифицираните (dirty) страници от паметта към реалните файлове с данни на диска.

Поради тази архитектура, физическите файлове с данни на диска почти винаги не са синхронизирани с реалното състояние на базата данни. Истинското състояние на базата данни съществува само като комбинация от файловете с данни на диска, WAL/Redo логовете и данните, които в момента се намират в паметта.

Зоната на опасност: Какво се случва по време на VM снимка

Когато правите стандартна VM снимка на сървър с база данни, вие улавяте състояние, което е crash-consistent (консистентно при срив).

Crash Consistency срещу Application Consistency

Снимка, консистентна при срив, е еквивалентна на изваждане на захранващия кабел от физическия сървър. Състоянието на диска е уловено, но всичко, което е било в паметта, е загубено, а всичко, което е било в процес на запис към контролера за съхранение, е внезапно прекъснато.

Въпреки че съвременните бази данни са проектирани да се възстановяват от неочаквана загуба на захранване чрез преиграване на Write-Ahead Log, разчитането на възстановяване след срив като основна стратегия за архивиране е изключително опасно. Ако вашата база данни обхваща множество виртуални дискове (напр. файлове с данни на Drive D: и WAL на Drive E:), хипервайзорът може да не направи снимка на двата диска в една и съща микросекунда. Ако снимката на WAL диска е направена дори частица от секундата след снимката на диска с данни, базата данни не може да съгласува поредните номера при възстановяване, което води до фатална повреда.

Ефектът „VM Stun“ при системи с висока транзакционна натовареност

Процесът на създаване на снимка—и по-важното, процесът на консолидиране на снимката—предизвиква феномен, известен като „VM Stun“ (замразяване на виртуалната машина).

За да превключи безопасно I/O от базовия диск към делта диска, хипервайзорът трябва за кратко да постави на пауза (stun) виртуалната машина. За слабо натоварен уеб сървър това замразяване може да продължи 10-50 милисекунди и да остане незабелязано. Въпреки това, за база данни с висока пропускателна способност и масивен I/O, консолидирането на голям делта диск може да замрази VM за няколко секунди.

По време на VM stun:
* Мрежовите връзки прекъсват, причинявайки изтичане на времето за изчакване (timeouts) на приложенията.
* Клъстерите с висока наличност (като SQL Server Always On, PostgreSQL Patroni или MySQL Galera) пропускат проверките за „пулс“ (heartbeat).
* Клъстерът може да приеме, че замразеният възел е мъртъв, предизвиквайки ненужно и разрушително превключване (сценарий split-brain).

Разкъсани страници (Torn Pages) и I/O несъответствие

Двигателите на бази данни обикновено записват данни в специфични размери на страниците (напр. 8KB за PostgreSQL и SQL Server, 16KB за InnoDB). Въпреки това, основната операционна система и масивите за съхранение обработват I/O в по-малки блокове (напр. 4KB или 512 байта).

Ако хипервайзорът направи снимка точно докато базата данни записва 8KB страница, снимката може да улови първите 4KB от новите данни и последните 4KB от старите данни. Това създава разкъсана страница. Когато се опитате да възстановите снимката, базата данни ще прочете страницата, ще се провали при проверката на контролната сума (checksum) и ще маркира базата данни като повредена.

Реални последици за конкретни двигатели на бази данни

Различните двигатели на бази данни реагират на crash-consistent снимки по различен начин, но никой от тях не се справя с това елегантно в продукционна среда.

PostgreSQL: PostgreSQL разчита силно на директорията pg_wal. Ако снимката улови директорията с данни ($PGDATA) и WAL несинхронизирано, PostgreSQL няма да успее да стартира, извеждайки грешка PANIC: could not locate a valid checkpoint record.
MySQL/InnoDB: InnoDB използва doublewrite buffer за предотвратяване на разкъсани страници, което предлага известна защита срещу crash-consistent състояния. Въпреки това, ако файлът ibdata1 и ib_logfile бъдат уловени несинхронизирано, двигателят InnoDB ще се срине при възстановяване.
Microsoft SQL Server: SQL Server е силно чувствителен към замразяване на I/O. Без правилна интеграция с VSS (Volume Shadow Copy Service), възстановяването на SQL Server от стандартна VM снимка често води до „подозрителни“ бази данни и счупени вериги от логове, унищожавайки вашите възможности за Point-in-Time Recovery (PITR).

Най-добри практики за безопасно архивиране на виртуализирани бази данни

За да защитите транзакционните бази данни, трябва да преминете от архиви, консистентни при срив, към архиви, консистентни на ниво приложение. Това изисква механизмът за архивиране да комуникира с двигателя на базата данни, принуждавайки го да изчисти паметта към диска и да постави на пауза I/O операциите за момент, докато се прави снимката.

1. Използвайте Application-Aware Quiescing (VSS и fsfreeze)

За Windows (SQL Server):
Винаги се уверявайте, че вашето решение за архивиране използва Microsoft Volume Shadow Copy Service (VSS). Когато се задейства VSS-съвместим архив, SQL Server VSS Writer замразява I/O на базата данни, изчиства чакащите транзакции към диска и гарантира, че снимката е напълно консистентна на ниво приложение.

За Linux (PostgreSQL / MySQL):
Linux няма вграден еквивалент на VSS. За да постигнете консистентност на ниво приложение, трябва да използвате скриптове за „преди замразяване“ (pre-freeze) и „след размразяване“ (post-thaw) в комбинация с инструментите за гости на хипервайзора (напр. VMware Tools).

Ето пример за VMware pre-freeze-script за PostgreSQL 15+, който безопасно подготвя базата данни за снимка:

#!/bin/bash
# /usr/sbin/pre-freeze-script
# Уверете се, че този скрипт е изпълним (chmod +x)

# 1. Кажете на PostgreSQL да се подготви за архив
su - postgres -c "psql -c "SELECT pg_backup_start('vm_snapshot', true);""

# 2. Изчистете буферите на файловата система към диска
sync

# 3. Замразете файловата система (приемайки, че данните са в /var/lib/pgsql)
fsfreeze -f /var/lib/pgsql

И съответният post-thaw-script за възобновяване на операциите:

#!/bin/bash
# /usr/sbin/post-thaw-script

# 1. Размразете файловата система
fsfreeze -u /var/lib/pgsql

# 2. Кажете на PostgreSQL, че архивът е завършен
su - postgres -c "psql -c "SELECT pg_backup_stop();""

2. Използвайте вградени инструменти за архивиране на бази данни

Въпреки че снимките, консистентни на ниво приложение, са по-добри от стандартните, те все още носят риска от VM stun. Най-безопасният подход за архивиране на бази данни е използването на вградени, стрийминг инструменти за архивиране, които работят независимо от хипервайзора.

PostgreSQL (pg_basebackup):

pg_basebackup -h localhost -U replication_user -D /mnt/backups/pg_backup -Ft -z -P

MySQL/MariaDB (Percona XtraBackup / Mariabackup):
Тези инструменти правят „горещи“, неблокиращи архиви чрез копиране на файловете с данни и едновременно проследяване на промените в redo log-а.

mariabackup --backup --target-dir=/mnt/backups/mysql_backup --user=root --password=SecurePass

SQL Server (T-SQL):

BACKUP DATABASE [ProductionDB] 
TO DISK = N'Z:BackupsProductionDB.bak' 
WITH NOFORMAT, NOINIT, NAME = N'ProductionDB-Full Backup', 
SKIP, NOREWIND, NOUNLOAD, COMPRESSION, STATS = 10;
GO

3. Внедрете Point-in-Time Recovery (PITR) чрез архивиране на логове

Ежедневната снимка или пълен архив ви защитават само до минутата, в която са направени. Ако базата ви данни се срине в 16:00 ч., а последната ви снимка е била в 02:00 ч., губите 14 часа транзакционни данни.

За да постигнете истинска устойчивост на корпоративно ниво, трябва да комбинирате пълни архиви, консистентни на ниво приложение, с непрекъснато архивиране на логове (архивиране на WAL, Redo Logs или Transaction Logs на всеки няколко минути). Това позволява на администраторите на бази данни да възстановят базата данни до конкретна минута или дори до конкретен транзакционен ID преди инцидента.

Корпоративни стратегии за архивиране с CloudSave

Управлението на персонализирани pre-freeze скриптове, cron задачи за вградени дъмп-ове и изпращане на логове през десетки сървъри с бази данни е оперативен кошмар за DevOps екипите. Тук платформа от корпоративен клас като CloudSave става критична.

CloudSave запълва празнината между виртуализацията и архитектурата на базите данни. Вместо да разчита на „слепи“ хипервайзорни снимки, CloudSave използва агенти, съвместими с приложенията, които се интегрират естествено с SQL Server, PostgreSQL, MySQL и Oracle.

Когато CloudSave инициира архив:
1. Той комуникира директно с двигателя на базата данни чрез вградени API (като VSS за Windows или вграден WAL стрийминг за Linux).
2. Той оркестрира изчистването на буферите на паметта към диска, без да причинява разрушителни VM stun ефекти.
3. Той сигурно улавя файловете с данни и автоматично управлява съкращаването на транзакционните логове.
4. Той непрекъснато архивира транзакционните логове, позволявайки детайлно Point-in-Time Recovery (PITR) с няколко кликвания.

Чрез прехвърляне на сложността на консистентността на ниво приложение към CloudSave, администраторите на бази данни и системните администратори могат да гарантират целостта на данните, без да жертват производителността или наличността на своите продукционни клъстери.

Заключение

Моментните снимки на виртуални машини са невероятен инструмент за управление на инфраструктурата, но те са фундаментално несъвместими с ACID изискванията на транзакционните бази данни. Разчитането на crash-consistent хипервайзорни снимки излага вашата организация на риск от разкъсани страници, счупени вериги за репликация и катастрофална загуба на данни.

За да защитите вашите критично важни данни, трябва да внедрите quiescing (замразяване), съвместимо с приложенията, да използвате вградени методологии за архивиране на бази данни и да поддържате непрекъснати архиви на транзакционните логове. Чрез приемането на специализирани корпоративни решения за архивиране, можете да гарантирате, че вашите бази данни остават с висока наличност, напълно възстановими и напълно защитени.

Защо VM снимките (snapshots) не са безопасни за транзакционни бази данни: Ръководство за целостта на данните за администратори на бази данни (DBA)