Why VM Snapshots Are Unsafe for Transactional Databases

Pentru inginerii DevOps și administratorii de sistem, snapshot-urile mașinilor virtuale (VM) reprezintă un instrument fundamental. Acestea oferă o modalitate rapidă și convenabilă de a captura starea unui server înainte de aplicarea unui patch riscant, a unei modificări majore de configurare sau a unei implementări de aplicație. Dacă ceva nu merge bine, revenirea la starea anterioară durează câteva secunde.

Totuși, atunci când această metodologie este aplicată bazelor de date tranzacționale — precum PostgreSQL, MySQL, Oracle sau Microsoft SQL Server — snapshot-urile VM se transformă dintr-o plasă de siguranță într-o bombă cu ceas.

Bazarea pe snapshot-uri standard de hypervisor pentru backup-urile bazelor de date este una dintre cele mai frecvente cauze ale coruperii datelor, paginilor fragmentate (torn pages) și întreruperilor de producție irecuperabile. În acest articol, vom explora conflictul arhitectural dintre hypervisoare și motoarele bazelor de date, mecanismele de corupere a datelor în timpul snapshot-urilor și bunele practici de inginerie necesare pentru a face backup în siguranță bazelor de date virtualizate.

Conflictul de arhitectură: Hypervisoare vs. Motoare de baze de date

Pentru a înțelege de ce snapshot-urile VM pun în pericol bazele de date, trebuie mai întâi să examinăm modul în care ambele sisteme gestionează starea și operațiunile I/O.

Cum execută hypervisoarele snapshot-urile

Atunci când un hypervisor (cum ar fi VMware ESXi, Microsoft Hyper-V sau KVM) realizează un snapshot, acesta nu copiază discul. În schimb, îngheață fișierul discului virtual curent (de exemplu, .vmdk sau .vhdx) într-o stare de tip read-only și creează un nou disc delta (disc de diferențiere). Toate scrierile ulterioare sunt direcționate către acest disc delta.

Când snapshot-ul este șters, hypervisorul trebuie să comită (consolideze) datele de pe discul delta înapoi în discul de bază. Snapshot-urile standard nu sunt deloc conștiente de aplicațiile care rulează în interiorul sistemului de operare invitat (guest). Ele capturează starea discului exact așa cum există în acea microsecundă.

Cum gestionează bazele de date tranzacționale starea

Bazele de date tranzacționale sunt concepute în jurul proprietăților ACID (Atomicitate, Consistență, Izolare, Durabilitate). Pentru a obține performanțe ridicate menținând în același timp conformitatea ACID, bazele de date nu scriu fiecare tranzacție direct în fișierele de date primare de pe disc imediat. În schimb, ele folosesc o arhitectură complexă, pe mai multe niveluri:

Buffer Pool / Shared Buffers: Datele sunt citite și modificate în memoria sistemului.
Write-Ahead Log (WAL) / Redo Logs: Modificările sunt scrise secvențial într-un fișier jurnal optimizat pe disc pentru a asigura durabilitatea.
Checkpoints / Lazy Writers: Periodic, baza de date golește paginile modificate (dirty pages) din memorie în fișierele de date reale de pe disc.

Din cauza acestei arhitecturi, fișierele de date fizice de pe disc sunt aproape întotdeauna nesincronizate cu starea reală a bazei de date. Starea reală a bazei de date există doar ca o combinație între fișierele de date de pe disc, jurnalele WAL/Redo și datele care se află în prezent în memorie.

Zona de pericol: Ce se întâmplă în timpul unui snapshot VM

Atunci când faceți un snapshot VM standard al unui server de baze de date, capturați o stare de tip crash-consistent (consistentă în caz de prăbușire).

Consistența la prăbușire vs. Consistența la nivel de aplicație

Un snapshot crash-consistent este echivalentul scoaterii cablului de alimentare din serverul fizic. Starea discului este capturată, dar tot ce se afla în memorie este pierdut, iar tot ce era în tranzit către controlerul de stocare este întrerupt brusc.

Deși bazele de date moderne sunt concepute să se recupereze după o pierdere neașteptată a alimentării prin reluarea jurnalului Write-Ahead, bazarea pe recuperarea în caz de prăbușire ca strategie principală de backup este extrem de periculoasă. Dacă baza de date se întinde pe mai multe discuri virtuale (de exemplu, fișiere de date pe Unitatea D: și WAL pe Unitatea E:), hypervisorul ar putea să nu facă snapshot la ambele discuri în exact aceeași microsecundă. Dacă snapshot-ul discului WAL este capturat chiar și cu o fracțiune de secundă după snapshot-ul discului de date, baza de date nu poate reconcilia numerele de secvență la restaurare, rezultând o corupere fatală.

Efectul de „VM Stun” asupra sistemelor cu tranzacții ridicate

Procesul de creare a snapshot-ului — și, mai important, procesul de consolidare a snapshot-ului — cauzează un fenomen cunoscut sub numele de „VM Stun” (înghețarea VM-ului).

Pentru a comuta în siguranță I/O de la discul de bază la discul delta, hypervisorul trebuie să întrerupă (să înghețe) scurt mașina virtuală. Pentru un server web cu încărcare redusă, această înghețare poate dura 10-50 de milisecunde și poate trece neobservată. Totuși, pentru o bază de date cu debit mare și I/O masiv, consolidarea unui disc delta mare poate îngheța VM-ul pentru câteva secunde.

În timpul unei înghețări VM:
* Conexiunile de rețea se întrerup, cauzând timeout-uri ale aplicațiilor.
* Cluster-ele de înaltă disponibilitate (precum SQL Server Always On, PostgreSQL Patroni sau MySQL Galera) ratează verificările de tip heartbeat.
* Cluster-ul poate presupune că nodul înghețat este mort, declanșând un failover inutil și perturbator (scenariul split-brain).

Paginile fragmentate și alinierea I/O

Motoarele bazelor de date scriu de obicei datele în dimensiuni specifice de pagină (de exemplu, 8KB pentru PostgreSQL și SQL Server, 16KB pentru InnoDB). Totuși, sistemul de operare și matricele de stocare subiacente procesează I/O în blocuri mai mici (de exemplu, 4KB sau 512 octeți).

Dacă un hypervisor face un snapshot exact în timp ce baza de date scrie o pagină de 8KB, snapshot-ul ar putea captura primii 4KB din datele noi și ultimii 4KB din datele vechi. Acest lucru creează o pagină fragmentată (torn page). Când încercați să restaurați snapshot-ul, baza de date va citi pagina, va eșua validarea sumei de control (checksum) și va marca baza de date ca fiind coruptă.

Consecințe în lumea reală pentru motoare de baze de date specifice

Diferite motoare de baze de date reacționează la snapshot-urile crash-consistent în moduri diferite, dar niciunul nu le gestionează corect într-un mediu de producție.

PostgreSQL: PostgreSQL se bazează puternic pe directorul pg_wal. Dacă un snapshot capturează directorul de date ($PGDATA) și WAL-ul nesincronizate, PostgreSQL nu va reuși să pornească, afișând eroarea PANIC: could not locate a valid checkpoint record.
MySQL/InnoDB: InnoDB folosește un buffer de tip doublewrite pentru a preveni paginile fragmentate, ceea ce oferă o oarecare protecție împotriva stărilor crash-consistent. Totuși, dacă fișierul ibdata1 și ib_logfile sunt capturate nesincronizate, motorul InnoDB se va prăbuși la recuperare.
Microsoft SQL Server: SQL Server este extrem de sensibil la înghețarea I/O. Fără o integrare adecvată VSS (Volume Shadow Copy Service), restaurarea unui SQL Server dintr-un snapshot VM standard va duce adesea la baze de date suspecte și lanțuri de jurnale rupte, distrugându-vă capacitățile de recuperare la un moment dat (PITR).

Bune practici pentru backup-ul sigur al bazelor de date virtualizate

Pentru a proteja bazele de date tranzacționale, trebuie să treceți de la backup-uri crash-consistent la backup-uri application-consistent (consistente la nivel de aplicație). Acest lucru necesită ca mecanismul de backup să comunice cu motorul bazei de date, forțându-l să golească memoria pe disc și să întrerupă temporar operațiunile I/O în timp ce se realizează snapshot-ul.

1. Utilizați Quiescing-ul conștient de aplicație (VSS și fsfreeze)

Pentru Windows (SQL Server):
Asigurați-vă întotdeauna că soluția dvs. de backup utilizează Microsoft Volume Shadow Copy Service (VSS). Când este declanșat un backup conștient de VSS, SQL Server VSS Writer îngheață I/O-ul bazei de date, golește tranzacțiile în așteptare pe disc și se asigură că snapshot-ul este perfect consistent la nivel de aplicație.

Pentru Linux (PostgreSQL / MySQL):
Linux nu are un echivalent nativ pentru VSS. Pentru a obține consistența la nivel de aplicație, trebuie să utilizați scripturi de tip pre-freeze și post-thaw în combinație cu instrumentele guest ale hypervisorului (de exemplu, VMware Tools).

Iată un exemplu de pre-freeze-script VMware pentru PostgreSQL 15+ care pregătește în siguranță baza de date pentru un snapshot:

#!/bin/bash
# /usr/sbin/pre-freeze-script
# Asigurați-vă că acest script este executabil (chmod +x)

# 1. Spuneți PostgreSQL să se pregătească pentru un backup
su - postgres -c "psql -c "SELECT pg_backup_start('vm_snapshot', true);""

# 2. Goliți buffer-ele sistemului de fișiere pe disc
sync

# 3. Înghețați sistemul de fișiere (presupunând că datele sunt pe /var/lib/pgsql)
fsfreeze -f /var/lib/pgsql

Și post-thaw-script-ul corespunzător pentru a relua operațiunile:

#!/bin/bash
# /usr/sbin/post-thaw-script

# 1. Dezghețați sistemul de fișiere
fsfreeze -u /var/lib/pgsql

# 2. Spuneți PostgreSQL că backup-ul este complet
su - postgres -c "psql -c "SELECT pg_backup_stop();""

2. Utilizați utilitare native de backup pentru baze de date

Deși snapshot-urile consistente la nivel de aplicație sunt mai bune decât cele standard, ele poartă în continuare riscul de „VM stun”. Cea mai sigură abordare pentru backup-urile bazelor de date este utilizarea utilitarelor native de backup prin streaming, care operează independent de hypervisor.

PostgreSQL (pg_basebackup):

pg_basebackup -h localhost -U replication_user -D /mnt/backups/pg_backup -Ft -z -P

MySQL/MariaDB (Percona XtraBackup / Mariabackup):
Aceste instrumente realizează backup-uri „la cald”, fără blocare, prin copierea fișierelor de date și monitorizarea simultană a modificărilor în jurnalul redo.

mariabackup --backup --target-dir=/mnt/backups/mysql_backup --user=root --password=SecurePass

SQL Server (T-SQL):

BACKUP DATABASE [ProductionDB] 
TO DISK = N'Z:BackupsProductionDB.bak' 
WITH NOFORMAT, NOINIT, NAME = N'ProductionDB-Full Backup', 
SKIP, NOREWIND, NOUNLOAD, COMPRESSION, STATS = 10;
GO

3. Implementați recuperarea la un moment dat (PITR) prin arhivarea jurnalelor

Un snapshot zilnic sau un backup complet vă protejează doar până în minutul în care a fost realizat. Dacă baza de date se prăbușește la ora 16:00 și ultimul snapshot a fost la ora 02:00, pierdeți 14 ore de date tranzacționale.

Pentru a obține o reziliență enterprise reală, trebuie să combinați backup-urile complete consistente la nivel de aplicație cu arhivarea continuă a jurnalelor (backup-ul jurnalelor WAL, Redo Logs sau Transaction Logs la fiecare câteva minute). Acest lucru permite administratorilor de baze de date să restaureze baza de date la un minut specific sau chiar la un ID de tranzacție specific înainte de un dezastru.

Strategii de backup enterprise cu CloudSave

Gestionarea scripturilor personalizate pre-freeze, a joburilor cron pentru dump-uri native și a transferului de jurnale pe zeci de servere de baze de date este un coșmar operațional pentru echipele DevOps. Aici devine critică o platformă de nivel enterprise precum CloudSave.

CloudSave elimină decalajul dintre virtualizare și arhitectura bazelor de date. În loc să se bazeze pe snapshot-uri oarbe de hypervisor, CloudSave utilizează agenți conștienți de aplicație care se integrează nativ cu SQL Server, PostgreSQL, MySQL și Oracle.

Când CloudSave inițiază un backup:
1. Comunică direct cu motorul bazei de date prin API-uri native (cum ar fi VSS pentru Windows sau streaming nativ WAL pentru Linux).
2. Orchestrează golirea buffer-elor de memorie pe disc fără a cauza înghețări perturbatoare ale VM-ului.
3. Capturează în siguranță fișierele de date și gestionează automat trunchierea jurnalelor de tranzacții.
4. Face backup continuu jurnalelor de tranzacții, permițând recuperarea granulară la un moment dat (PITR) cu câteva clicuri.

Prin delegarea complexității consistenței la nivel de aplicație către CloudSave, administratorii de baze de date și sysadminii pot garanta integritatea datelor fără a sacrifica performanța sau disponibilitatea clusterelor lor de producție.

Concluzie

Snapshot-urile mașinilor virtuale sunt un instrument incredibil pentru gestionarea infrastructurii, dar sunt fundamental incompatibile cu cerințele ACID ale bazelor de date tranzacționale. Bazarea pe snapshot-uri de hypervisor crash-consistent expune organizația la pagini fragmentate, lanțuri de replicare rupte și pierderi catastrofale de date.

Pentru a vă proteja datele critice, trebuie să implementați quiescing-ul conștient de aplicație, să utilizați metodologii native de backup pentru baze de date și să mențineți arhive continue ale jurnalelor de tranzacții. Adoptând soluții de backup enterprise special concepute, vă puteți asigura că bazele de date rămân înalt disponibile, complet recuperabile și complet securizate.

De ce snapshot-urile VM nu sunt sigure pentru bazele de date tranzacționale: Un ghid al administratorului de baze de date (DBA) pentru integritatea datelor