Why VM Snapshots Are Unsafe for Transactional Databases

DevOps इंजीनियरों और सिस्टम प्रशासकों के लिए, वर्चुअल मशीन (VM) स्नैपशॉट एक मूलभूत उपकरण हैं। वे जोखिम भरे पैच, बड़े कॉन्फ़िगरेशन परिवर्तन या एप्लिकेशन डिप्लॉयमेंट से पहले सर्वर की स्थिति को कैप्चर करने का एक तेज़ और सुविधाजनक तरीका प्रदान करते हैं। यदि कुछ गलत हो जाता है, तो रोलबैक करने में कुछ ही सेकंड लगते हैं।

हालाँकि, जब यही कार्यप्रणाली ट्रांसेक्शनल डेटाबेस—जैसे PostgreSQL, MySQL, Oracle, या Microsoft SQL Server—पर लागू की जाती है, तो VM स्नैपशॉट एक सुरक्षा कवच से बदलकर एक टिक-टिक करते बम में बदल जाते हैं।

डेटाबेस बैकअप के लिए मानक हाइपरवाइज़र स्नैपशॉट पर निर्भर रहना डेटा भ्रष्टाचार (data corruption), टोरन पेजों (torn pages) और अप्राप्य प्रोडक्शन आउटेज के सबसे सामान्य कारणों में से एक है। इस लेख में, हम हाइपरवाइज़र और डेटाबेस इंजन के बीच वास्तुशिल्प संघर्ष, स्नैपशॉट के दौरान डेटा भ्रष्टाचार के तंत्र, और वर्चुअलाइज्ड डेटाबेस का सुरक्षित रूप से बैकअप लेने के लिए आवश्यक इंजीनियरिंग सर्वोत्तम प्रथाओं का पता लगाएंगे।

वास्तुकला संघर्ष: हाइपरवाइज़र बनाम डेटाबेस इंजन

यह समझने के लिए कि VM स्नैपशॉट डेटाबेस को खतरे में क्यों डालते हैं, हमें पहले यह जांचना होगा कि दोनों सिस्टम स्थिति और I/O संचालन का प्रबंधन कैसे करते हैं।

हाइपरवाइज़र स्नैपशॉट कैसे निष्पादित करते हैं

जब कोई हाइपरवाइज़र (जैसे VMware ESXi, Microsoft Hyper-V, या KVM) स्नैपशॉट लेता है, तो वह डिस्क को कॉपी नहीं करता है। इसके बजाय, यह वर्तमान वर्चुअल डिस्क फ़ाइल (जैसे .vmdk या .vhdx) को रीड-ओनली स्थिति में फ्रीज़ कर देता है और एक नई डेल्टा डिस्क (डिफरेंसिंग डिस्क) बनाता है। बाद के सभी राइट्स (writes) इसी डेल्टा डिस्क पर निर्देशित होते हैं।

जब स्नैपशॉट हटा दिया जाता है, तो हाइपरवाइज़र को डेल्टा डिस्क से डेटा को वापस बेस डिस्क में कमिट (एकीकृत) करना होता है। मानक स्नैपशॉट गेस्ट ऑपरेटिंग सिस्टम के अंदर चल रहे एप्लिकेशन के बारे में पूरी तरह से अनजान होते हैं। वे डिस्क की स्थिति को बिल्कुल वैसे ही कैप्चर करते हैं जैसे वह उस माइक्रोसेकंड में मौजूद होती है।

ट्रांसेक्शनल डेटाबेस स्थिति का प्रबंधन कैसे करते हैं

ट्रांसेक्शनल डेटाबेस ACID गुणों (Atomicity, Consistency, Isolation, Durability) के आधार पर डिज़ाइन किए गए हैं। ACID अनुपालन बनाए रखते हुए उच्च प्रदर्शन प्राप्त करने के लिए, डेटाबेस हर ट्रांजेक्शन को तुरंत डिस्क पर प्राथमिक डेटा फ़ाइलों में नहीं लिखते हैं। इसके बजाय, वे एक जटिल, बहु-स्तरीय वास्तुकला का उपयोग करते हैं:

बफ़र पूल / शेयर्ड बफ़र्स: डेटा को सिस्टम मेमोरी में पढ़ा और संशोधित किया जाता है।
राइट-अहेड लॉग (WAL) / रीडो लॉग्स: स्थायित्व सुनिश्चित करने के लिए परिवर्तनों को डिस्क पर एक अत्यधिक अनुकूलित लॉग फ़ाइल में क्रमिक रूप से लिखा जाता है।
चेकपॉइंट्स / लेज़ी राइटर्स: समय-समय पर, डेटाबेस मेमोरी से संशोधित (डर्टी) पेजों को डिस्क पर वास्तविक डेटा फ़ाइलों में फ्लश करता है।

इस वास्तुकला के कारण, डिस्क पर भौतिक डेटा फ़ाइलें लगभग हमेशा डेटाबेस की वास्तविक स्थिति के साथ सिंक से बाहर होती हैं। डेटाबेस की वास्तविक स्थिति केवल डिस्क पर मौजूद डेटा फ़ाइलों, WAL/रीडो लॉग्स और वर्तमान में मेमोरी में मौजूद डेटा के संयोजन के रूप में मौजूद होती है।

खतरा क्षेत्र: VM स्नैपशॉट के दौरान क्या होता है

जब आप डेटाबेस सर्वर का मानक VM स्नैपशॉट लेते हैं, तो आप एक क्रैश-कंसिस्टेंट स्थिति कैप्चर कर रहे होते हैं।

क्रैश कंसिस्टेंसी बनाम एप्लिकेशन कंसिस्टेंसी

क्रैश-कंसिस्टेंट स्नैपशॉट भौतिक सर्वर से पावर कॉर्ड खींचने के बराबर है। डिस्क की स्थिति कैप्चर हो जाती है, लेकिन मेमोरी में जो कुछ भी था वह खो जाता है, और जो कुछ भी स्टोरेज कंट्रोलर के लिए बीच में था, वह अचानक कट जाता है।

हालाँकि आधुनिक डेटाबेस को राइट-अहेड लॉग को रिप्ले करके अप्रत्याशित बिजली हानि से उबरने के लिए डिज़ाइन किया गया है, लेकिन अपनी प्राथमिक बैकअप रणनीति के रूप में क्रैश रिकवरी पर भरोसा करना बेहद खतरनाक है। यदि आपका डेटाबेस कई वर्चुअल डिस्क (जैसे Drive D: पर डेटा फ़ाइलें और Drive E: पर WAL) में फैला हुआ है, तो हाइपरवाइज़र दोनों डिस्क को बिल्कुल एक ही माइक्रोसेकंड में स्नैपशॉट नहीं कर सकता है। यदि WAL डिस्क स्नैपशॉट डेटा डिस्क स्नैपशॉट के एक सेकंड के अंश के बाद भी कैप्चर किया जाता है, तो डेटाबेस पुनर्स्थापना पर अनुक्रम संख्याओं (sequence numbers) का मिलान नहीं कर सकता है, जिसके परिणामस्वरूप घातक भ्रष्टाचार होता है।

उच्च-ट्रांजेक्शन सिस्टम पर “VM स्टन” प्रभाव

स्नैपशॉट निर्माण प्रक्रिया—और इससे भी महत्वपूर्ण बात, स्नैपशॉट समेकन प्रक्रिया—एक ऐसी घटना का कारण बनती है जिसे “VM स्टन” के रूप में जाना जाता है।

I/O को बेस डिस्क से डेल्टा डिस्क पर सुरक्षित रूप से स्विच करने के लिए, हाइपरवाइज़र को वर्चुअल मशीन को संक्षेप में रोकना (stun) पड़ता है। हल्के लोड वाले वेब सर्वर के लिए, यह स्टन 10-50 मिलीसेकंड तक रह सकता है और किसी का ध्यान नहीं जाता है। हालाँकि, भारी I/O वाले उच्च-थ्रूपुट डेटाबेस के लिए, एक बड़ी डेल्टा डिस्क को समेकित करने से VM कई सेकंड के लिए स्टन हो सकता है।

VM स्टन के दौरान:
* नेटवर्क कनेक्शन गिर जाते हैं, जिससे एप्लिकेशन टाइमआउट हो जाते हैं।
* उच्च-उपलब्धता क्लस्टर (जैसे SQL Server Always On, PostgreSQL Patroni, या MySQL Galera) हार्टबीट चेक मिस कर देते हैं।
* क्लस्टर यह मान सकता है कि स्टन हुआ नोड मृत है, जिससे अनावश्यक और विघटनकारी फेलओवर (स्प्लिट-ब्रेन परिदृश्य) शुरू हो जाता है।

टोरन पेज और I/O मिसअलाइनमेंट

डेटाबेस इंजन आमतौर पर विशिष्ट पेज आकारों (जैसे PostgreSQL और SQL Server के लिए 8KB, InnoDB के लिए 16KB) में डेटा लिखते हैं। हालाँकि, अंतर्निहित ऑपरेटिंग सिस्टम और स्टोरेज ऐरे छोटे ब्लॉकों (जैसे 4KB या 512 बाइट्स) में I/O को संसाधित करते हैं।

यदि कोई हाइपरवाइज़र ठीक उसी समय स्नैपशॉट लेता है जब डेटाबेस 8KB पेज लिख रहा होता है, तो स्नैपशॉट नए डेटा के पहले 4KB और पुराने डेटा के अंतिम 4KB को कैप्चर कर सकता है। यह एक टोरन पेज बनाता है। जब आप स्नैपशॉट को पुनर्स्थापित करने का प्रयास करते हैं, तो डेटाबेस पेज को पढ़ेगा, चेकसम सत्यापन में विफल हो जाएगा, और डेटाबेस को दूषित के रूप में चिह्नित करेगा।

विशिष्ट डेटाबेस इंजनों के लिए वास्तविक दुनिया के परिणाम

विभिन्न डेटाबेस इंजन क्रैश-कंसिस्टेंट स्नैपशॉट पर अलग-अलग तरीकों से प्रतिक्रिया करते हैं, लेकिन उनमें से कोई भी प्रोडक्शन वातावरण में इसे शालीनता से नहीं संभालता है।

PostgreSQL: PostgreSQL काफी हद तक pg_wal निर्देशिका पर निर्भर करता है। यदि कोई स्नैपशॉट डेटा निर्देशिका ($PGDATA) और WAL को सिंक से बाहर कैप्चर करता है, तो PostgreSQL शुरू होने में विफल हो जाएगा, और PANIC: could not locate a valid checkpoint record त्रुटि देगा।
MySQL/InnoDB: InnoDB टोरन पेजों को रोकने के लिए डबलराइट बफ़र का उपयोग करता है, जो क्रैश-कंसिस्टेंट स्थितियों के खिलाफ कुछ सुरक्षा प्रदान करता है। हालाँकि, यदि ibdata1 फ़ाइल और ib_logfile सिंक से बाहर कैप्चर किए जाते हैं, तो रिकवरी पर InnoDB इंजन क्रैश हो जाएगा।
Microsoft SQL Server: SQL Server I/O फ्रीजिंग के प्रति अत्यधिक संवेदनशील है। उचित VSS (वॉल्यूम शैडो कॉपी सर्विस) एकीकरण के बिना, मानक VM स्नैपशॉट से SQL Server को पुनर्स्थापित करने के परिणामस्वरूप अक्सर संदिग्ध डेटाबेस और टूटी हुई लॉग चेन होती हैं, जो आपकी पॉइंट-इन-टाइम रिकवरी (PITR) क्षमताओं को नष्ट कर देती हैं।

वर्चुअलाइज्ड डेटाबेस का सुरक्षित रूप से बैकअप लेने के लिए सर्वोत्तम अभ्यास

ट्रांसेक्शनल डेटाबेस की सुरक्षा के लिए, आपको क्रैश-कंसिस्टेंट बैकअप से एप्लिकेशन-कंसिस्टेंट बैकअप की ओर बढ़ना होगा। इसके लिए बैकअप तंत्र को डेटाबेस इंजन के साथ संवाद करने की आवश्यकता होती है, जिससे उसे मेमोरी को डिस्क पर फ्लश करने और स्नैपशॉट लेते समय I/O संचालन को अस्थायी रूप से रोकने के लिए मजबूर किया जाता है।

1. एप्लिकेशन-अवेयर क्विज़िंग (VSS और fsfreeze) का लाभ उठाएं

Windows (SQL Server) के लिए:
हमेशा सुनिश्चित करें कि आपका बैकअप समाधान Microsoft वॉल्यूम शैडो कॉपी सर्विस (VSS) का उपयोग करता है। जब VSS-अवेयर बैकअप ट्रिगर होता है, तो SQL Server VSS राइटर डेटाबेस I/O को फ्रीज़ कर देता है, लंबित ट्रांजेक्शन को डिस्क पर फ्लश कर देता है, और सुनिश्चित करता है कि स्नैपशॉट पूरी तरह से एप्लिकेशन-कंसिस्टेंट है।

Linux (PostgreSQL / MySQL) के लिए:
Linux में VSS के बराबर कोई नेटिव सुविधा नहीं है। एप्लिकेशन कंसिस्टेंसी प्राप्त करने के लिए, आपको हाइपरवाइज़र के गेस्ट टूल्स (जैसे VMware Tools) के साथ संयोजन में प्री-फ्रीज़ और पोस्ट-थॉ स्क्रिप्ट का उपयोग करना होगा।

यहाँ PostgreSQL 15+ के लिए एक VMware pre-freeze-script का उदाहरण दिया गया है जो स्नैपशॉट के लिए डेटाबेस को सुरक्षित रूप से तैयार करता है:

#!/bin/bash
# /usr/sbin/pre-freeze-script
# सुनिश्चित करें कि यह स्क्रिप्ट निष्पादन योग्य है (chmod +x)

# 1. PostgreSQL को बैकअप के लिए तैयार होने के लिए कहें
su - postgres -c "psql -c "SELECT pg_backup_start('vm_snapshot', true);""

# 2. फ़ाइल सिस्टम बफ़र्स को डिस्क पर फ्लश करें
sync

# 3. फ़ाइल सिस्टम को फ्रीज़ करें (यह मानते हुए कि डेटा /var/lib/pgsql पर है)
fsfreeze -f /var/lib/pgsql

और संचालन को फिर से शुरू करने के लिए संबंधित post-thaw-script:

#!/bin/bash
# /usr/sbin/post-thaw-script

# 1. फ़ाइल सिस्टम को अनफ्रीज़ करें
fsfreeze -u /var/lib/pgsql

# 2. PostgreSQL को बताएं कि बैकअप पूरा हो गया है
su - postgres -c "psql -c "SELECT pg_backup_stop();""

2. नेटिव डेटाबेस बैकअप उपयोगिताओं का उपयोग करें

हालाँकि एप्लिकेशन-कंसिस्टेंट स्नैपशॉट मानक स्नैपशॉट से बेहतर हैं, फिर भी उनमें VM स्टन का जोखिम होता है। डेटाबेस बैकअप के लिए सबसे सुरक्षित दृष्टिकोण नेटिव, स्ट्रीमिंग बैकअप उपयोगिताओं का उपयोग करना है जो हाइपरवाइज़र से स्वतंत्र रूप से काम करती हैं।

PostgreSQL (pg_basebackup):

pg_basebackup -h localhost -U replication_user -D /mnt/backups/pg_backup -Ft -z -P

MySQL/MariaDB (Percona XtraBackup / Mariabackup):
ये उपकरण डेटा फ़ाइलों को कॉपी करके और साथ ही रीडो लॉग में परिवर्तनों को ट्रैक करके हॉट, नॉन-ब्लॉकिंग बैकअप लेते हैं।

mariabackup --backup --target-dir=/mnt/backups/mysql_backup --user=root --password=SecurePass

SQL Server (T-SQL):

BACKUP DATABASE [ProductionDB] 
TO DISK = N'Z:BackupsProductionDB.bak' 
WITH NOFORMAT, NOINIT, NAME = N'ProductionDB-Full Backup', 
SKIP, NOREWIND, NOUNLOAD, COMPRESSION, STATS = 10;
GO

3. लॉग आर्काइविंग के माध्यम से पॉइंट-इन-टाइम रिकवरी (PITR) लागू करें

दैनिक स्नैपशॉट या पूर्ण बैकअप केवल उस मिनट तक आपकी सुरक्षा करता है जब वह लिया गया था। यदि आपका डेटाबेस शाम 4:00 बजे क्रैश हो जाता है और आपका अंतिम स्नैपशॉट सुबह 2:00 बजे था, तो आप 14 घंटे का ट्रांसेक्शनल डेटा खो देते हैं।

सच्ची उद्यम लचीलापन प्राप्त करने के लिए, आपको पूर्ण एप्लिकेशन-कंसिस्टेंट बैकअप को निरंतर लॉग आर्काइविंग (हर कुछ मिनटों में WAL, रीडो लॉग्स या ट्रांजेक्शन लॉग्स का बैकअप लेना) के साथ जोड़ना होगा। यह DBA को आपदा से पहले डेटाबेस को एक विशिष्ट मिनट या किसी विशिष्ट ट्रांजेक्शन आईडी पर पुनर्स्थापित करने की अनुमति देता है।

CloudSave के साथ एंटरप्राइज़ बैकअप रणनीतियाँ

दर्जनों डेटाबेस सर्वरों में कस्टम प्री-फ्रीज़ स्क्रिप्ट, नेटिव डंप के लिए क्रॉन जॉब्स और लॉग शिपिंग का प्रबंधन करना DevOps टीमों के लिए एक परिचालन दुःस्वप्न है। यहीं पर CloudSave जैसा एंटरप्राइज़-ग्रेड प्लेटफ़ॉर्म महत्वपूर्ण हो जाता है।

CloudSave वर्चुअलाइजेशन और डेटाबेस वास्तुकला के बीच की खाई को पाटता है। अंधे हाइपरवाइज़र स्नैपशॉट पर भरोसा करने के बजाय, CloudSave एप्लिकेशन-अवेयर एजेंटों का उपयोग करता है जो SQL Server, PostgreSQL, MySQL और Oracle के साथ नेटिव रूप से एकीकृत होते हैं।

जब CloudSave बैकअप शुरू करता है:
1. यह नेटिव API (जैसे Windows के लिए VSS या Linux के लिए नेटिव WAL स्ट्रीमिंग) के माध्यम से सीधे डेटाबेस इंजन के साथ संचार करता है।
2. यह विघटनकारी VM स्टन पैदा किए बिना मेमोरी बफ़र्स को डिस्क पर फ्लश करने का समन्वय करता है।
3. यह सुरक्षित रूप से डेटा फ़ाइलों को कैप्चर करता है और स्वचालित रूप से ट्रांजेक्शन लॉग ट्रंकेशन का प्रबंधन करता है।
4. यह लगातार ट्रांजेक्शन लॉग का बैकअप लेता है, जिससे कुछ ही क्लिक के साथ दानेदार पॉइंट-इन-टाइम रिकवरी (PITR) सक्षम हो जाती है।

एप्लिकेशन कंसिस्टेंसी की जटिलता को CloudSave पर ऑफलोड करके, DBA और sysadmins अपने प्रोडक्शन क्लस्टर के प्रदर्शन या उपलब्धता का त्याग किए बिना डेटा अखंडता की गारंटी दे सकते हैं।

निष्कर्ष

वर्चुअल मशीन स्नैपशॉट इंफ्रास्ट्रक्चर प्रबंधन के लिए एक अविश्वसनीय उपकरण हैं, लेकिन वे मौलिक रूप से ट्रांसेक्शनल डेटाबेस की ACID आवश्यकताओं के साथ असंगत हैं। क्रैश-कंसिस्टेंट हाइपरवाइज़र स्नैपशॉट पर भरोसा करना आपके संगठन को टोरन पेजों, टूटी हुई प्रतिकृति श्रृंखलाओं और विनाशकारी डेटा हानि के जोखिम में डालता है।

अपने मिशन-महत्वपूर्ण डेटा की सुरक्षा के लिए, आपको एप्लिकेशन-अवेयर क्विज़िंग लागू करनी होगी, नेटिव डेटाबेस बैकअप कार्यप्रणाली का उपयोग करना होगा, और निरंतर ट्रांजेक्शन लॉग आर्काइव बनाए रखना होगा। उद्देश्य-निर्मित एंटरप्राइज़ बैकअप समाधानों को अपनाकर, आप यह सुनिश्चित कर सकते हैं कि आपके डेटाबेस अत्यधिक उपलब्ध, पूरी तरह से पुनर्प्राप्ति योग्य और पूरी तरह से सुरक्षित रहें।

लेन-देन डेटाबेस के लिए VM स्नैपशॉट सुरक्षित क्यों नहीं हैं: डेटा अखंडता के लिए एक DBA गाइड