Why mysqldump Fails Large MySQL Databases & How to Fix It

Со децении, mysqldump беше неоспорваниот „швајцарски нож“ за правење резервни копии (бекап) на MySQL бази на податоци. Тој е сеприсутен, едноставен и доаѓа претходно инсталиран со секоја дистрибуција на MySQL и MariaDB. За мали до средни бази на податоци, тој работи одлично.

Меѓутоа, како што организациите се шират и сетовите на податоци ги надминуваат праговите од 100GB, 500GB или повеќе терабајти, потпирањето на mysqldump преминува од најдобра практика во критична архитектонска ранливост. Ако сте DBA или DevOps инженер кој управува со големи продукциски бази на податоци, веројатно сте се соочиле со тивки неуспеси, деградација на продукцијата и неприфатливи цели за време на обновување (Recovery Time Objectives – RTO) поврзани со логичките дампови.

Во оваа статија, ќе ги анализираме архитектонските ограничувања на mysqldump, ќе истражиме зошто тој не успева при големи размери и ќе детализираме како да имплементирате физички стратегии за бекап од претпријатиско ниво за да ги заштитите вашите критични податоци.

Архитектонските ограничувања на mysqldump

За да разбереме зошто mysqldump не успева при големи размери, мора да испитаме како тој функционира „под хаубата“. mysqldump врши логички бекап. Тој испраќа барања до моторот на базата на податоци, ги чита податоците и ги преведува во серија SQL наредби (првенствено CREATE TABLE и INSERT INTO).

Иако ова создава високо пренослива датотека читлива за луѓе, тоа воведува сериозни тесни грла во средини со голем проток.

1. Тесното грло на еднонишкото извршување (Single-Threaded Bottleneck)

Според дизајнот, mysqldump е операција со една нишка (single-threaded). Тој обработува една по една табела, ред по ред. Иако современиот хардвер се фали со десетици CPU јадра и NVMe складирање способно за гигабајти проток во секунда, mysqldump користи само дел од овие ресурси.

Дури и кога се користат стандардните знаменца за InnoDB табели:

mysqldump -u root -p --single-transaction --routines --triggers --events --quick production_db > backup.sql

Знаменцето --quick го принудува mysqldump да ги презема редовите еден по еден наместо да ја баферира целата табела во меморијата, што спречува грешки од типот „Out of Memory“ (OOM) на страната на клиентот. Сепак, природата на една нишка значи дека за база од 500GB може да бидат потребни 10 до 15 часа за да се направи дамп, што сериозно влијае на вашата цел за точка на обновување (Recovery Point Objective – RPO).

2. Загадување на InnoDB Buffer Pool

Кога mysqldump го чита секој ред од секоја табела, го принудува MySQL моторот да ги вчита тие податоци од дискот во InnoDB buffer pool. Во продукциска средина, вашиот buffer pool е внимателно пополнет со вашиот „жежок“ работен сет на податоци.

Масивен логички дамп ќе го исчисти buffer pool-от, исфрлајќи ги често користените индекси и страници со податоци за да се направи место за „ладните“ податоци што се бекапираат. Ова резултира со ненадеен, масивен скок во I/O на дискот бидејќи продукциските барања се принудени да читаат од дискот, што доведува до сериозна латенција на апликацијата.

3. Метаподаточни заклучувања и DDL конфликти

За да се одржи конзистентност, DBA се потпираат на знаменцето --single-transaction, кое го поставува нивото на изолација на трансакцијата на REPEATABLE READ и започнува трансакција пред да ги исфрли податоците.

Иако ова избегнува заклучувања на ниво на табела (FLUSH TABLES WITH READ LOCK), тоа не штити од промени во јазикот за дефинирање податоци (DDL). Ако се изврши наредба ALTER TABLE, DROP TABLE или TRUNCATE TABLE врз табела додека работи mysqldump, бекапот ќе се сруши со грешка table definition has changed, please retry transaction. Во CI/CD средини со чести миграции на шемата, ова предизвикува континуирани неуспеси на бекапот.

4. RTO кошмарот: Времиња на обновување

Најкатастрофалниот неуспех на mysqldump не се реализира за време на бекапот, туку за време на обновувањето (restore).

Обновувањето на логички дамп бара од MySQL моторот да парсира и изврши милиони INSERT наредби. За секој вметнат ред, MySQL мора:
* Да ги провери ограничувањата (надворешни клучеви, уникатни клучеви).
* Да ги обнови секундарните индекси во лет.
* Да запише во InnoDB redo логот.
* Да испразни во binlog (ако е овозможено).

Обновувањето на база од 1TB од логички дамп може да трае неколку дена. Ако вашиот бизнис има RTO од 4 часа, mysqldump гарантира дека ќе го прекршите вашиот договор за ниво на услуга (SLA).

Алтернативи од претпријатиско ниво: Преминување кон физички бекап

За да постигнете брз бекап и обновување за големи сетови на податоци, мора да се откажете од логичките бекапи во корист на физички бекапи.

Физичките бекапи целосно го заобиколуваат SQL моторот за извршување на MySQL. Наместо тоа, тие ги копираат основните бинарни датотеки со податоци (.ibd датотеките, redo логовите и undo логовите) директно од датотечниот систем. Бидејќи тие само копираат датотеки, тие можат да работат со максимална секвенцијална брзина на читање/пишување на вашиот хардвер за складирање и можат да бидат силно паралелизирани.

Percona XtraBackup: Индустриски стандард

За InnoDB и XtraDB моторите, Percona XtraBackup е врвната алатка за физички бекап со отворен код. Таа врши „жежок“, неблокирачки бекап на MySQL бази на податоци.

Како работи XtraBackup

Копирање на податоци: XtraBackup започнува со копирање на InnoDB датотеките со податоци (.ibd).
Следење на логови: Бидејќи базата на податоци е активна, податоците ќе се менуваат додека се копираат датотеките. XtraBackup создава нишка во позадина која ги следи и копира InnoDB redo логовите (ib_logfile0, итн.) за сите трансакции што се случуваат за време на прозорецот за бекап.
Подготовка (Обновување од пад): По бекапот, копираните датотеки со податоци се во неконзистентна состојба. XtraBackup ги применува копираните redo логови врз датотеките со податоци (слично на тоа како MySQL врши обновување од пад при стартување), што резултира со совршено конзистентна снимка (snapshot) на базата на податоци во точниот момент кога завршил бекапот.

Имплементирање на стратегија за физички бекап

Еве технички преглед на имплементирање на стратегија за физички бекап користејќи Percona XtraBackup.

Чекор 1: Стримување на бекапот

Запишувањето на масивен бекап на локалниот диск често предизвикува проблеми со капацитетот. Најдобрата практика наложува стримување на бекапот директно во формат на архива, негово компресирање и испраќање до простор за привремено складирање или директно до платформа за бекап.

Користејќи xbstream, можеме да го паралелизираме бекапот и да го компресираме во лет:

xtrabackup --backup 
  --user=backup_user 
  --password=SecurePassword! 
  --parallel=4 
  --stream=xbstream | lz4 > /mnt/backups/mysql_prod_backup.xbstream.lz4

--parallel=4: Користи 4 нишки за истовремено читање на датотеките со податоци.
--stream=xbstream: Го исфрла бекапот во прилагодениот формат за стримување на Percona.
lz4: Овозможува исклучително брза компресија со мала потрошувачка на CPU.

Чекор 2: Подготовка на бекапот за обновување

Пред да може да се обнови физички бекап, тој мора да биде „подготвен“ (примена на redo логовите). Прво, извлечете и декомпресирајте го стримот:

mkdir -p /data/restore
lz4 -d /mnt/backups/mysql_prod_backup.xbstream.lz4 | xbstream -x -C /data/restore

Следно, извршете ја фазата на подготовка. Овој чекор бара меморија, затоа осигурете се дека серверот има доделено соодветна RAM меморија:

xtrabackup --prepare --use-memory=4G --target-dir=/data/restore

Чекор 3: Обновување на базата на податоци

За да се изврши обновување, целниот директориум со податоци на MySQL мора да биде целосно празен. Стопирајте го MySQL сервисот, исчистете го директориумот и копирајте ги датотеките назад:

systemctl stop mysql
rm -rf /var/lib/mysql/*

xtrabackup --copy-back --target-dir=/data/restore

Конечно, поправете ги дозволите на датотечниот систем пред да го стартувате сервисот:

chown -R mysql:mysql /var/lib/mysql
systemctl start mysql

Бидејќи датотеките со податоци се веќе изградени и индексите се веќе компајлирани, базата на податоци стартува веднаш. Обновувањето што траело 48 часа со mysqldump сега трае само онолку колку што е потребно за копирање на датотеките преку вашата мрежа или диск—често намалувајќи го RTO на неколку минути.

Оптимизирање на логички обновувања (Кога мора да ги користите)

Ако сте принудени да обновите голем логички дамп (на пр., мигрирање помеѓу различни главни верзии на MySQL или различни CPU архитектури каде што физичките датотеки се некомпатибилни), мора привремено да ја прилагодите вашата MySQL конфигурација за да оптимизирате за масивен проток на запишување.

Применете ги овие поставки во вашиот my.cnf пред да започнете со логичкото обновување:

[mysqld]
# Привремено оневозможете го binlogging ако ова е самостојно обновување
disable_log_bin

# Одложете го празнењето на дискот за да ја максимизирате брзината на запишување
innodb_flush_log_at_trx_commit = 2

# Зголемете го buffer pool за да собере што е можно повеќе од работниот сет
innodb_buffer_pool_size = <Поставете на 70% од вкупната RAM меморија>

# Зголемете ја големината на датотеката со логови за да спречите агресивно проверување (checkpointing)
innodb_log_file_size = 2G

# Оневозможете го doublewrite buffer (ризично за продукција, безбедно за почетно вчитување)
innodb_doublewrite = 0

Забелешка: Секогаш враќајте ги овие поставки на нивните стандардни вредности усогласени со ACID (innodb_flush_log_at_trx_commit = 1, innodb_doublewrite = 1) и рестартирајте го MySQL сервисот пред да дозволите продукциски сообраќај.

Автоматизирање и обезбедување на бекапи со CloudSave

Иако алатките како Percona XtraBackup ја решаваат механиката на ефикасно извлекување на податоците, вистинската стратегија за обновување од катастрофи на претпријатиско ниво бара оркестрација, безбедно складирање надвор од локацијата и управување со животниот циклус. Потпирањето на прилагодени bash скрипти и cron работни места за управување со физички бекапи воведува висок ризик од тивки неуспеси и прекршувања на усогласеноста.

Ова е местото каде што интегрирањето на вашиот слој на база на податоци со платформа за претпријатија како CloudSave станува критично.

CloudSave го премостува јазот помеѓу суровите алатки за бази на податоци и усогласеноста на претпријатијата. Со користење на можностите за пред- и пост-скриптирање на CloudSave, DevOps тимовите можат да го активираат XtraBackup за да генерираат конзистентна физичка снимка. CloudSave потоа беспрекорно го прима стримот за бекап, применува AES-256 енкрипција и ги дедуплицира податоците пред да ги реплицира во непроменливо облачно складирање.

Оваа архитектура осигурува дека:
1. Се одржуваат перформансите на продукцијата: Бекапите работат со брзини на складирање без да го загадуваат InnoDB buffer pool-от.
2. Заштита од откупен софтвер (Ransomware): Политиките за непроменливо складирање во рамките на CloudSave ги спречуваат злонамерните актери да ги избришат или шифрираат вашите архиви на базата на податоци.
3. Автоматизирано задржување: Политиките за задржување „Дедо-Татко-Син“ (GFS) се ракуваат автоматски, обезбедувајќи усогласеност со суверенитетот на податоците и барањата за ревизија.
4. Предвидлив RTO: Бидејќи CloudSave управува со архивите на физички датотеки, обновувањето на база на податоци од повеќе терабајти во нова инстанца може да се оркестрира брзо, исполнувајќи ги строгите RTO цели.

Заклучок

Продолжувањето со користење на mysqldump за бази на податоци од големи размери е коцкање со времето на работа и интегритетот на податоците на вашата организација. Природата на една нишка, загадувањето на buffer pool-от и катастрофалните времиња на обновување го прават фундаментално несоодветен за современи средини со голем проток.

Со преминување кон физички бекап користејќи алатки како Percona XtraBackup и оркестрирање на животниот циклус, енкрипцијата и репликацијата надвор од локацијата преку робусна платформа како CloudSave, ја трансформирате вашата стратегија за бекап на база на податоци од кревка обврска во еластичен актив од претпријатиско ниво. Проценете ги вашите моментални RTO и RPO метрики денес—ако обновувањето трае подолго отколку што вашиот бизнис може да си дозволи да биде офлајн, време е да го оставите mysqldump зад себе.

Зошто mysqldump не успева со вашите големи MySQL бази на податоци (и како да го поправите тоа)