Detect Corrupted Database Backups Before Disaster

Dalam dunia pentadbiran pangkalan data dan kejuruteraan kebolehpercayaan tapak yang berisiko tinggi, terdapat satu aksiom yang terkenal: Sandaran Schrödinger. Keadaan mana-mana sandaran adalah tidak diketahui sehingga anda cuba memulihkannya. Sehingga saat itu, ia wujud dalam keadaan kuantum yang kedua-duanya berfungsi dengan sempurna dan rosak sepenuhnya.

Bagi jurutera DevOps dan DBA, mendapati bahawa sandaran pangkalan data kritikal rosak semasa insiden aktif adalah senario mimpi ngeri yang paling utama. Ia mengubah operasi pemulihan rutin menjadi peristiwa kehilangan data yang dahsyat. “Pembunuh senyap” integriti data ini sering tidak disedari kerana kerja sandaran akan kerap melaporkan Exit Code 0 yang berjaya walaupun muatan asasnya terjejas.

Dalam panduan komprehensif ini, kami akan membedah anatomi kerosakan sandaran, meneroka teknik pengesahan khusus pangkalan data, dan menunjukkan cara membina saluran paip pemulihan automatik yang kalis peluru untuk persekitaran pengeluaran.

Anatomi Kerosakan Sandaran

Untuk mengesan kerosakan, anda mesti memahami terlebih dahulu bagaimana ia berlaku. Kerosakan sandaran secara amnya terbahagi kepada dua kategori: fizikal (peringkat infrastruktur) dan logikal (peringkat aplikasi).

Kerosakan Fizikal

Kerosakan fizikal berlaku apabila bit sebenar pada medium storan diubah. Ini boleh berlaku semasa proses bacaan daripada cakera sumber, semasa transit rangkaian, atau semasa rehat pada storan sasaran.
* Reput Bit (Bit Rot): Degradasi beransur-ansur media storan boleh mengubah bit secara senyap.
* Ralat Transit: Walaupun TCP mempunyai checksum, ia terkenal lemah (16-bit). Persekitaran throughput tinggi boleh mengalami kerosakan data senyap melalui talian yang gagal dikesan oleh TCP.
* Kerosakan Pengawal Storan: Pepijat perkakasan dalam pengawal RAID atau fabrik SAN boleh menulis data sampah semasa melaporkan kejayaan kepada OS.

Kerosakan Logikal

Kerosakan logikal boleh dikatakan lebih berbahaya kerana fail sandaran itu sendiri utuh sepenuhnya, tetapi data di dalamnya rosak.
* Sampah Masuk, Sampah Keluar (GIGO): Jika pangkalan data langsung anda mempunyai indeks yang rosak atau halaman yang koyak, alat sandaran anda mungkin menyalin halaman yang rosak itu dengan setia. Kerja sandaran berjaya, tetapi pemulihan akan gagal atau menghasilkan pangkalan data yang rosak.
* Transaksi Tidak Lengkap: Syot kilat peringkat sistem fail yang diambil tanpa membekukan I/O pangkalan data dengan betul (contohnya, tidak menggunakan FLUSH TABLES WITH READ LOCK dalam MySQL) mengakibatkan halaman koyak dan keadaan yang tidak boleh dipulihkan.

Pengesanan Proaktif: Checksum dan Hashing Kriptografi

Barisan pertahanan pertama terhadap kerosakan fizikal ialah pengesahan kriptografi. Bergantung pada saiz fail atau tarikh pengubahsuaian adalah tidak mencukupi.

Mendayakan Checksum Peringkat Pangkalan Data

Sistem pengurusan pangkalan data hubungan (RDBMS) moden menyokong checksum peringkat halaman. Apabila didayakan, pangkalan data mengira checksum untuk setiap halaman sebelum menulisnya ke cakera. Apabila halaman dibaca (sama ada oleh pertanyaan atau proses sandaran), checksum disahkan.

Untuk PostgreSQL, anda boleh mendayakan checksum data semasa permulaan kluster:

# Mulakan kluster PostgreSQL baharu dengan checksum didayakan
initdb --data-checksums -D /var/lib/postgresql/data

Nota: Jika anda mempunyai kluster PostgreSQL sedia ada, anda boleh menggunakan utiliti pg_checksums untuk mendayakannya di luar talian.

Untuk Microsoft SQL Server, pastikan PAGE_VERIFY ditetapkan kepada CHECKSUM (lalai dalam versi moden, tetapi berbaloi untuk disahkan pada sistem legasi):

ALTER DATABASE [ProductionDB] SET PAGE_VERIFY CHECKSUM;
GO

Mengesahkan Sandaran Semasa Rehat

Sebaik sahaja sandaran mendarat pada sasaran storan anda, integritinya mesti disahkan secara kriptografi. Platform sandaran perusahaan seperti CloudSave secara automatik mengira dan mengesahkan hash SHA-256 blok sandaran semasa transit dan semasa rehat. Jika anda menguruskan skrip tersuai, anda mesti melaksanakan ini secara manual:

# Jana hash SHA-256 selepas penciptaan sandaran
sha256sum prod_db_backup.tar.gz > prod_db_backup.tar.gz.sha256

# Sahkan hash pada pelayan storan
sha256sum -c prod_db_backup.tar.gz.sha256

Teknik Pengesahan Khusus Pangkalan Data

Enjin pangkalan data yang berbeza menawarkan alat asli untuk mengesahkan integriti artifak sandaran mereka.

PostgreSQL: `pg_verifybackup`

Diperkenalkan dalam PostgreSQL 13, pg_verifybackup adalah pengubah permainan untuk sandaran fizikal yang diambil dengan pg_basebackup. Ia membaca fail backup_manifest yang dijana semasa sandaran dan mengesahkan bahawa semua fail ada dan checksumnya sepadan.

# Jalankan pengesahan terhadap direktori sandaran asas fizikal
pg_verifybackup /mnt/backups/postgres/base_backup_20231025/

Jika satu bit telah berubah dalam mana-mana fail data, pg_verifybackup akan mengeluarkan ralat maut, membolehkan sistem pemantauan anda memaklumkan pasukan DBA dengan segera.

Microsoft SQL Server: `RESTORE VERIFYONLY`

SQL Server menyediakan arahan asli untuk mengesahkan integriti fizikal fail sandaran tanpa memulihkannya secara sebenar. Ia menyemak pengepala sandaran dan mengesahkan checksum halaman (jika ia didayakan semasa sandaran).

RESTORE VERIFYONLY 
FROM DISK = 'Z:BackupsProdDB_Full.bak' 
WITH CHECKSUM;

Amaran: RESTORE VERIFYONLY hanya mengesahkan bahawa fail sandaran boleh dibaca dan checksum fizikal sepadan. Ia tidak menjamin integriti logikal. Untuk memastikan integriti logikal, anda mesti melakukan pemulihan penuh dan menjalankan DBCC CHECKDB.

MySQL / InnoDB: Percona XtraBackup

Untuk persekitaran MySQL, sandaran fizikal sering dikendalikan oleh Percona XtraBackup. Proses sandaran terdiri daripada menyalin fail, tetapi sandaran tidak konsisten sehingga log transaksi (redo logs) digunakan. Fasa --prepare bertindak sebagai semakan integriti terbina dalam.

# Menyediakan sandaran menggunakan redo logs. 
# Jika sandaran rosak, langkah ini akan gagal.
xtrabackup --prepare --target-dir=/data/backups/mysql/

Standard Emas: Ujian Pemulihan Automatik

Checksum dan arahan pengesahan adalah perlu, tetapi ia tidak mencukupi. Satu-satunya cara untuk membuktikan secara muktamad bahawa sandaran berdaya maju adalah dengan memulihkannya. Dalam persekitaran DevOps moden, proses ini mesti diautomasikan sepenuhnya.

Dengan melayan sandaran sebagai kod, anda boleh membina saluran paip CI/CD untuk pemulihan pangkalan data anda. Saluran paip ini harus memperuntukkan infrastruktur sementara, melaksanakan pemulihan, menjalankan pertanyaan pengesahan, dan meruntuhkan persekitaran.

Membina Saluran Paip Pemulihan Automatik

Di bawah ialah contoh skrip Bash yang boleh dicetuskan setiap hari oleh kerja cron atau pelari CI (seperti GitLab CI atau GitHub Actions) untuk mengesahkan dump logikal PostgreSQL.

#!/bin/bash
set -e

BACKUP_FILE="/mnt/storage/prod_db_latest.dump"
DB_NAME="prod_db"
CONTAINER_NAME="pg_restore_test"

echo "[INFO] Memulakan Ujian Pemulihan Automatik..."

# 1. Hidupkan bekas PostgreSQL sementara
docker run --name $CONTAINER_NAME 
  -e POSTGRES_PASSWORD=testpass 
  -d postgres:15

# Tunggu sehingga PostgreSQL sedia
echo "[INFO] Menunggu pangkalan data untuk dimulakan..."
until docker exec $CONTAINER_NAME pg_isready -U postgres; do
  sleep 2
done

# 2. Cipta pangkalan data sasaran
docker exec $CONTAINER_NAME psql -U postgres -c "CREATE DATABASE $DB_NAME;"

# 3. Laksanakan pemulihan
echo "[INFO] Memulihkan sandaran..."
docker cp $BACKUP_FILE $CONTAINER_NAME:/tmp/backup.dump
docker exec $CONTAINER_NAME pg_restore -U postgres -d $DB_NAME -1 /tmp/backup.dump

# 4. Jalankan Pertanyaan Pengesahan Logikal
echo "[INFO] Menjalankan pertanyaan pengesahan..."
# Semak sama ada jadual pengguna mempunyai lebih daripada 10,000 rekod
USER_COUNT=$(docker exec $CONTAINER_NAME psql -U postgres -d $DB_NAME -t -c "SELECT COUNT(*) FROM users;")

if [ "$USER_COUNT" -lt 10000 ]; then
    echo "[ERROR] Pengesahan logikal gagal. Dijangkakan >10000 pengguna, ditemui $USER_COUNT"
    # Cetuskan makluman PagerDuty / Slack di sini
    exit 1
else
    echo "[SUCCESS] Pengesahan logikal berjaya. Bilangan pengguna: $USER_COUNT"
fi

# 5. Runtuhkan persekitaran sementara
echo "[INFO] Membersihkan..."
docker rm -f $CONTAINER_NAME

echo "[INFO] Ujian Pemulihan Automatik Berjaya Diselesaikan."

Apa yang Perlu Anda Sahkan?

Apabila melakukan ujian pemulihan automatik, jangan hanya semak sama ada pangkalan data bermula. Jalankan pertanyaan pengesahan khusus aplikasi:
1. Bilangan Baris: Pastikan jadual teras mempunyai bilangan baris yang dijangkakan (contohnya, jadual users tidak sepatutnya kosong).
2. Data Terkini: Pertanyakan rekod yang dicipta dalam 24 jam terakhir untuk memastikan sandaran tidak basi.
3. Integriti Rujukan: Jalankan skrip untuk menyemak kunci asing yang terbiar, yang menunjukkan kerosakan logikal.

Pemantauan dan Makluman untuk Anomali Sandaran

Mengesan kerosakan sebelum bencana berlaku memerlukan kebolehcerapan yang mantap. Selain keadaan binari berjaya/gagal, anda harus memantau metadata kerja sandaran anda untuk mengesan anomali.

Pemantauan Heuristik

Integrasikan metadata sandaran anda ke dalam Prometheus dan visualisasikannya dengan Grafana. Sediakan makluman untuk heuristik berikut:
* Penurunan Saiz Mengejut: Jika sandaran harian anda secara konsisten 500GB, dan sandaran hari ini ialah 50MB, kerja mungkin telah selesai dengan jayanya (Exit Code 0), tetapi ia mungkin menyandarkan skema kosong.
* Anomali Tempoh: Jika sandaran yang biasanya mengambil masa 2 jam selesai dalam 5 minit, sesuatu telah dilangkau. Sebaliknya, jika ia mengambil masa 10 jam, anda mungkin mengalami degradasi I/O cakera yang boleh membawa kepada kerosakan.
* Pengumpulan Log WAL/Arkib: Jika pangkalan data anda menjana Log Tulis-Dahulu (WAL) tetapi sistem sandaran tidak mengarkibkannya dengan cukup pantas, anda berisiko mengalami jurang dalam rantaian Pemulihan Titik-dalam-Masa (PITR) anda.

Melaksanakan Peraturan 3-2-1 dengan Semakan Integriti

Peraturan sandaran 3-2-1 standard industri (3 salinan data, 2 media berbeza, 1 di luar tapak) hanya berkesan jika semua salinan disahkan.

Di sinilah memanfaatkan penyelesaian perusahaan seperti CloudSave mengurangkan beban operasi secara drastik. Daripada menulis dan menyelenggara skrip bash yang kompleks untuk setiap nod pangkalan data, CloudSave berintegrasi secara terus dengan infrastruktur anda untuk mengautomasikan kitaran hayat 3-2-1. Ia menyediakan storan tidak boleh ubah—melindungi daripada perisian tebusan—dan menampilkan jadual pengesahan pemulihan automatik terbina dalam. CloudSave boleh menghidupkan persekitaran kotak pasir terpencil secara automatik, melekapkan sandaran, menjalankan skrip pengesahan SQL tersuai anda, dan melaporkan status kesihatan kembali ke papan pemuka pusat anda.

Kesimpulan

Sandaran pangkalan data yang rosak adalah pembunuh senyap yang boleh memusnahkan perniagaan. Bergantung semata-mata pada Exit Code 0 skrip sandaran adalah perjudian yang berbahaya.

Untuk benar-benar melindungi persekitaran pengeluaran anda, anda mesti menggunakan strategi pertahanan mendalam:
1. Dayakan checksum peringkat halaman dalam enjin pangkalan data anda.
2. Gunakan alat pengesahan asli (pg_verifybackup, RESTORE VERIFYONLY) serta-merta selepas penciptaan sandaran.
3. Pantau metadata sandaran (saiz, tempoh) untuk anomali heuristik.
4. Laksanakan ujian pemulihan automatik dan sementara sebagai sebahagian daripada saluran paip operasi harian anda.

Dengan beralih daripada mentaliti sandaran “tembak dan lupa” yang pasif kepada model “pengesahan pemulihan berterusan” yang aktif, anda memastikan bahawa apabila bencana tidak dapat dielakkan, data anda sedia, boleh dipercayai, dan boleh dipulihkan sepenuhnya.

Pembunuh Senyap: Cara Mengesan Sandaran Pangkalan Data yang Rosak Sebelum Bencana Berlaku

Anatomi Kerosakan Sandaran

Kerosakan Fizikal

Kerosakan Logikal

Pengesanan Proaktif: Checksum dan Hashing Kriptografi

Mendayakan Checksum Peringkat Pangkalan Data

Mengesahkan Sandaran Semasa Rehat

Teknik Pengesahan Khusus Pangkalan Data

PostgreSQL: `pg_verifybackup`

Microsoft SQL Server: `RESTORE VERIFYONLY`

MySQL / InnoDB: Percona XtraBackup

Standard Emas: Ujian Pemulihan Automatik

Membina Saluran Paip Pemulihan Automatik

Apa yang Perlu Anda Sahkan?

Pemantauan dan Makluman untuk Anomali Sandaran

Pemantauan Heuristik

Melaksanakan Peraturan 3-2-1 dengan Semakan Integriti

Kesimpulan

Kategori

Quick Links

Product

Anatomi Kerosakan Sandaran

Kerosakan Fizikal

Kerosakan Logikal

Pengesanan Proaktif: Checksum dan Hashing Kriptografi

Mendayakan Checksum Peringkat Pangkalan Data

Mengesahkan Sandaran Semasa Rehat

Teknik Pengesahan Khusus Pangkalan Data

PostgreSQL: pg_verifybackup

Microsoft SQL Server: RESTORE VERIFYONLY

MySQL / InnoDB: Percona XtraBackup

Standard Emas: Ujian Pemulihan Automatik

Membina Saluran Paip Pemulihan Automatik

Apa yang Perlu Anda Sahkan?

Pemantauan dan Makluman untuk Anomali Sandaran

Pemantauan Heuristik

Melaksanakan Peraturan 3-2-1 dengan Semakan Integriti

Kesimpulan

Kategori

Quick Links

Product

PostgreSQL: `pg_verifybackup`

Microsoft SQL Server: `RESTORE VERIFYONLY`