ZFS RAID Recovery

InfoLAB, 8.8.2015. – Zero File System, ili kako mu “tepaju” najnapredniji operacijski sustav i manager današnjice. Razvijen od strane Sun Microsystemsa, za Solaris. Danas u javnom vlasništvu. Zašto je poseban?
– skalabilan, 128bitni sustav i može izadresirati gotovo beskonačne količine prostora (zettabytes),
– potpuna zaštita najsnažnijim checksum algoritmima koji konstantno provjeravaju stanja svih file-ova i njihovih kopija. U slučaju problema popravak sustava “u letu”.
– proširiv, ako Vam zatreba više prostora, jednostavno dodate još hard diskova u vaše polje, sustav ih prepozna i koristi, bez ikakvih reformata, reinicijacija ili slično, kao da ste dodali RAM modul
– koristi najnaprednije RAID moduse u akombinaciji sa gore pobrojanim. Brzina ZFS RAID polja je na nivou hardwareskih RAID kontrolera

Korisnik nam je dostavio SAS diskove iz ZFS RAID 5 polja, jedan disk pokvaren, nedostaje Casche disk, sustav “pukao” pri rebuildu (vjerojatno radi problema sa još jednim diskom) , tako da je sustav postao neuporabljiv. Na diskovnom polju su bile snimljene VMFS virtualne particije što dodatno komplicira spašavanje podataka.
Diskovi su već bili u jednom od najvećih svjetskih data recovery centara i slučaj je proglašen nerješivim.
Ipak odlučili smo pokušati, i naši talijanski inženjeri su pokrenuli operaciju spašavanja dataseta.
1. provjereni svi ispravni hard diskovi članovi raida i napravljena priprema za proces spašavanja podataka. Otkriven je problematični disk i napravljena sistemska image kopija pokvrenog hard diska sa minimlnim brojem nedostupnih sektora, i pripremljen za proces spašavanja podataka.
2. ručna rekonstrukcija ZFS RAID polja na BSD Linuxu, sa ciljem dobivanja korektne ZFS strukture
3. readresiranje dobivenog Dataseta preko iSCSI konekcije na Linux OS
Nakon puno uloženih sati rada pojavljuju se prvi rezultati:
*****

[root@freenas] ~# zfs list
NAME                                           USED  AVAIL  REFER  MOUNTPOINT
VG01                                          1.31T  3.79T   413K  /mnt/VG01
VG01/DS01                                     1.30T  3.79T  1.17T  –
VG01/DSSO01                                   12.4G  3.80T   344M  –
freenas-boot                                   519M  6.58G    31K  none
freenas-boot/ROOT                              512M  6.58G    25K  none
freenas-boot/ROOT/Initial-Install                1K  6.58G   506M  legacy
freenas-boot/ROOT/Wizard-2015-07-06_16:45:55     1K  6.58G   507M  legacy
freenas-boot/ROOT/default                      512M  6.58G   508M  legacy
freenas-boot/grub                             6.79M  6.58G  6.79M  legacy
 
~# zpool status -vx
  pool: VG01
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
  scan: resilvered 616G in 10h51m with 3 errors on Thu Aug  6 23:42:12 2015
config:
 
        NAME                                            STATE     READ WRITE CKSUM
        VG01                                            DEGRADED     0     0     2
          raidz2-0                                      DEGRADED     0     0     4
            replacing-0                                 DEGRADED     0     0     3
              18103487841217759343                      UNAVAIL      0     0     0  was /dev/dsk/c1t0d0s0/old
              gpt/zfs                                   ONLINE       0     0     0
            gptid/86bec493-fbf4-88c0-853b-fc267e2c4185  ONLINE       0     0     0
            gptid/1767b968-df4f-366c-8047-e1350c82d267  ONLINE       0     0     1
            733605069122713053                          UNAVAIL      0     0     0  was /volumes/fakedrive
        cache
          10347689764177463864                          UNAVAIL      0     0     0  was /dev/dsk/c1t5d0s0
 
errors: Permanent errors have been detected in the following files:
 
        VG01/DS01:<0x1>
        VG01/DS01@snap-weekly-1-2015-06-21-002009:<0x1>
        VG01/DS01@snap-daily-1-2015-07-11-001005:<0x1>

*****

…i rekli bi uspjeh…no budući da su gore virtualke i korisniku je bila najbitnija ova “neispravna” VG01/DS01 čekala nas je još borba sa ručnim popravkom VMFS oštećene strukture
4.  Popravak VMFSa, pristup strukturi i skidanje korisničkih podataka:
InfoLAB nas spašavanje podataka

Korisnik obavješten o uspješno spašenim podacima, nije vjerovao da smo uspjeli, no nakon provjere istih prezadovoljan rezultatima.
Još jedan veliki uspjeh naših talijanskih kolega, i kad se sve čini izgubljenim upornost se isplatila. I ovim smo pokazali da InfoLAB raspolaže jednom od najboljih svjetskih ekipa za najkompleksnije poslove spašavanja podataka sa RAID, server, NAS, SAN i svih ostalih storage uređaja.