[Raid 5 logiciel] gros pbs de disques ...

gros pbs de disques ... [Raid 5 logiciel] - Divers - Linux et OS Alternatifs

Marsh Posté le 10-06-2003 à 16:32:27    

Salut,  
 
Bon voilà, j'ai une partition en raid 5 qui ne marche plus.
Pour commencer j'ai eu ceci dans mes logs, sans que je ne touche a quoique ce soit :
 
Jun 10 13:27:22 arda kernel: scsi0: ERROR on channel 0, id 3, lun 0, CDB: Read (10) 00 02 66 fa 00 00 01 80 00
Jun 10 13:27:22 arda kernel: Info fld=0x266fa1d, Current sd08:30: sense key Medium Error
Jun 10 13:27:22 arda kernel: Additional sense indicates Unrecovered read error
Jun 10 13:27:22 arda kernel:  I/O error: dev 08:30, sector 40303128
Jun 10 13:27:22 arda kernel: md: recovery thread got woken up ...
Jun 10 13:27:22 arda kernel: md: updating md2 RAID superblock on device
Jun 10 13:27:22 arda kernel: sym53c896-0-<3,*>: FAST-40 SCSI 40.0 MB/s (25.0 ns, offset 31)
Jun 10 13:27:22 arda kernel: md: recovery thread finished ...
Jun 10 13:27:22 arda kernel: md: (skipping faulty sdd )
Jun 10 13:27:22 arda kernel: scsi0: ERROR on channel 0, id 3, lun 0, CDB: Read (10) 00 02 66 fa 00 00 01 80 00
Jun 10 13:27:22 arda kernel: Info fld=0x266fa1d, Current sd08:30: sense key Medium Error
Jun 10 13:27:22 arda kernel: Additional sense indicates Unrecovered read error
Jun 10 13:27:22 arda kernel:  I/O error: dev 08:30, sector 40303128
Jun 10 13:27:22 arda kernel: raid5: Disk failure on sdd, disabling device. Operation continuing on 5 devices
Jun 10 13:27:22 arda kernel: md: recovery thread got woken up ...
Jun 10 13:27:22 arda kernel: md: updating md2 RAID superblock on device
Jun 10 13:27:22 arda kernel: sym53c896-0-<3,*>: FAST-40 SCSI 40.0 MB/s (25.0 ns, offset 31)
Jun 10 13:27:22 arda kernel: md2: no spare disk to reconstruct array! -- continuing in degraded mode
Jun 10 13:27:22 arda kernel: md: recovery thread finished ...
Jun 10 13:27:22 arda kernel: md: (skipping faulty sdd )
Jun 10 13:32:03 arda kernel: EXT3-fs error (device md(9,2)): ext3_readdir: directory #13533203 contains a hole at offset 0
Jun 10 13:32:36 arda kernel: EXT3-fs error (device md(9,2)): ext3_readdir: directory #13533203 contains a hole at offset 0
Jun 10 13:36:04 arda kernel: EXT3-fs error (device md(9,2)): ext3_readdir: directory #10846265 contains a hole at offset 0
[...]
 
 
Donc apparement un disque ce sens pas bien ...
Ne sachant pas trop quoi faire je reboot la machine, et là impossible de monter ma partition raid ( /dev/md2 )
En faisant un raidstart /dev/md2, j'ai :
Jun 10 15:48:30 arda kernel:  [events: 0000003e]
Jun 10 15:48:30 arda kernel:  [events: 00000057]
Jun 10 15:48:30 arda kernel:  [events: 00000057]
Jun 10 15:48:30 arda kernel:  [events: 00000055]
Jun 10 15:48:30 arda kernel:  [events: 00000057]
Jun 10 15:48:30 arda last message repeated 2 times
Jun 10 15:48:30 arda kernel:  [events: 0000003c]
Jun 10 15:48:30 arda kernel: md: autorun ...
Jun 10 15:48:30 arda kernel: md: considering sdb ...
Jun 10 15:48:30 arda kernel: md:  adding sdb ...
Jun 10 15:48:30 arda kernel: md:  adding sdg ...
Jun 10 15:48:30 arda kernel: md:  adding sdh ...
Jun 10 15:48:30 arda kernel: md:  adding sde ...
Jun 10 15:48:30 arda kernel: md:  adding sdd ...
Jun 10 15:48:30 arda kernel: md:  adding sdf ...
Jun 10 15:48:30 arda kernel: md:  adding sdc ...
Jun 10 15:48:30 arda kernel: md:  adding sda ...
Jun 10 15:48:30 arda kernel: md: created md2
Jun 10 15:48:30 arda kernel: md: bind<sda,1>
Jun 10 15:48:30 arda kernel: md: bind<sdc,2>
Jun 10 15:48:30 arda kernel: md: bind<sdf,3>
Jun 10 15:48:30 arda kernel: md: bind<sdd,4>
Jun 10 15:48:30 arda kernel: md: bind<sde,5>
Jun 10 15:48:30 arda kernel: md: bind<sdh,6>
Jun 10 15:48:30 arda kernel: md: bind<sdg,7>
Jun 10 15:48:30 arda kernel: md: bind<sdb,8>
Jun 10 15:48:30 arda kernel: md: running: <sdb><sdg><sdh><sde><sdd><sdf><sdc><sda>
Jun 10 15:48:30 arda kernel: md: sdb's event counter: 0000003c
Jun 10 15:48:30 arda kernel: md: sdg's event counter: 00000057
Jun 10 15:48:30 arda kernel: md: sdh's event counter: 00000057
Jun 10 15:48:30 arda kernel: md: sde's event counter: 00000057
Jun 10 15:48:30 arda kernel: md: sdd's event counter: 00000055
Jun 10 15:48:30 arda kernel: md: sdf's event counter: 00000057
Jun 10 15:48:30 arda kernel: md: sdc's event counter: 00000057
Jun 10 15:48:30 arda kernel: md: sda's event counter: 0000003e
Jun 10 15:48:30 arda kernel: md: superblock update time inconsistency -- using the most recent one
Jun 10 15:48:30 arda kernel: md: freshest: sdg
Jun 10 15:48:30 arda kernel: md: kicking non-fresh sdb from array!
Jun 10 15:48:30 arda kernel: md: unbind<sdb,7>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdb)
Jun 10 15:48:30 arda kernel: md: kicking non-fresh sdd from array!
Jun 10 15:48:30 arda kernel: md: unbind<sdd,6>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdd)
Jun 10 15:48:30 arda kernel: md: kicking non-fresh sda from array!
Jun 10 15:48:30 arda kernel: md: unbind<sda,5>
Jun 10 15:48:30 arda kernel: md: export_rdev(sda)
Jun 10 15:48:30 arda kernel: md2: removing former faulty sdd!
Jun 10 15:48:30 arda kernel: md2: max total readahead window set to 1488k
Jun 10 15:48:30 arda kernel: md2: 6 data-disks, max readahead per data-disk: 248k
Jun 10 15:48:30 arda kernel: raid5: device sdg operational as raid disk 6
Jun 10 15:48:30 arda kernel: raid5: device sdh operational as raid disk 5
Jun 10 15:48:30 arda kernel: raid5: device sde operational as raid disk 4
Jun 10 15:48:30 arda kernel: raid5: device sdf operational as raid disk 2
Jun 10 15:48:30 arda kernel: raid5: device sdc operational as raid disk 1
Jun 10 15:48:30 arda kernel: raid5: not enough operational devices for md2 (2/7 failed)
Jun 10 15:48:30 arda kernel: RAID5 conf printout:
Jun 10 15:48:30 arda kernel:  --- rd:7 wd:5 fd:2
Jun 10 15:48:30 arda kernel:  disk 0, s:0, o:0, n:0 rd:0 us:1 dev:[dev 00:00]
Jun 10 15:48:30 arda kernel:  disk 1, s:0, o:1, n:1 rd:1 us:1 dev:sdc
Jun 10 15:48:30 arda kernel:  disk 2, s:0, o:1, n:2 rd:2 us:1 dev:sdf
Jun 10 15:48:30 arda kernel:  disk 3, s:0, o:0, n:3 rd:3 us:1 dev:[dev 00:00]
Jun 10 15:48:30 arda kernel:  disk 4, s:0, o:1, n:4 rd:4 us:1 dev:sde
Jun 10 15:48:30 arda kernel:  disk 5, s:0, o:1, n:5 rd:5 us:1 dev:sdh
Jun 10 15:48:30 arda kernel:  disk 6, s:0, o:1, n:6 rd:6 us:1 dev:sdg
Jun 10 15:48:30 arda kernel: raid5: failed to run raid set md2
Jun 10 15:48:30 arda kernel: md: pers->run() failed ...
Jun 10 15:48:30 arda kernel: md :do_md_run() returned -22
Jun 10 15:48:30 arda kernel: md: md2 stopped.
Jun 10 15:48:30 arda kernel: md: unbind<sdg,4>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdg)
Jun 10 15:48:30 arda kernel: md: unbind<sdh,3>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdh)
Jun 10 15:48:30 arda kernel: md: unbind<sde,2>
Jun 10 15:48:30 arda kernel: md: export_rdev(sde)
Jun 10 15:48:30 arda kernel: md: unbind<sdf,1>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdf)
Jun 10 15:48:30 arda kernel: md: unbind<sdc,0>
Jun 10 15:48:30 arda kernel: md: export_rdev(sdc)
Jun 10 15:48:30 arda kernel: md: ... autorun DONE.
 
Mon /etc/raidtab, ressemble a ceci :
raiddev                         /dev/md2
        raid-level              5
        nr-raid-disks           7
        nr-spare-disks          1
        chunk-size              32
        persistent-superblock   1
        parity-algorithm        left-symmetric
        device                  /dev/sda
        raid-disk               0
        device                  /dev/sdb
        raid-disk               1
        device                  /dev/sdc
        raid-disk               2
        device                  /dev/sdd
        raid-disk               3
        device                  /dev/sde
        raid-disk               4
        device                  /dev/sdh
        raid-disk               5
        device                  /dev/sdg
        raid-disk               6
        device                  /dev/sdf
        spare-disk              0
 
Donc, au final je ne comprends pas pourquoi /dev/sda et /dev/sdb, n'etaient a prioris pas inclus dans le raid.
 
Est ce que ca a un rapport avec le fait qu'il ne soit pas du meme modele que les autres :
cat /var/log/dmesg :
[...]
  Vendor: IBM       Model: DDYS-T36950M      Rev: S96H
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: DDYS-T36950M      Rev: S96H
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
  Vendor: IBM       Model: IC35L036UCD210-0  Rev: S5BS
  Type:   Direct-Access                      ANSI SCSI revision: 03
[...]
 
Voila, je ne sais pas quoi faire sans riquer de casser ce qui peux encore etre recuperable et j'aimerai recupeer mes données ! :cry:
 
Merci pour votre aide.


Message édité par Aragorn_1er le 10-06-2003 à 16:34:07
Reply

Marsh Posté le 10-06-2003 à 16:32:27   

Reply

Marsh Posté le 11-06-2003 à 09:12:01    

UP :cry:

Reply

Marsh Posté le 11-06-2003 à 11:56:22    

UP silvoupli :sweat:

Reply

Marsh Posté le 11-06-2003 à 13:48:01    

Pourtant, ton raid-5 est bien constitué des 8 disques de sda à sdh ...
 
7 disques utiles + 1 disque spare
 
Tu pouvais te permettre de perdre 2 disques sans perdre les données, mais hélas il y en a 3 qui sont fautifs apparemment (sda, sdb, sdd) ... Donc: tu as perdu toutes tes données. :(
 
Le 1er message semble indiquer une défaillance de sdd .
 
Vérifie que les 3 disques en questions sont physiquement en bon état (débranche/rebranche les éventuellement).
 
Mon hypothèse: tu fonctionnais depuis qques temps sans le savoir avec un raid-5 en mode dégradé, et maintenant un nouveau disque te lache, et il est trop tard (ça m'est arrivé).
 
Si tu n'as pas peur, tu peux refaire un mkdraid ... genre:
mkraid --really-force /dev/md2
 
Puis un fsck
e2fsck /dev/md2
 
Mais n'aies pas trop d'espoir s'il y a vraiment une panne matérielle :(


Message édité par [Albator] le 11-06-2003 à 13:49:01
Reply

Marsh Posté le 11-06-2003 à 14:14:05    

Les 3 disques en question sont en bon états ( physiquement ), je l'ai debranchés et rebranchés tous, ca ne sent aussi pas le cramé ...
 
Sinon en ce qui concerne l'ensemble des disques je viens de m'appercevoir que seulement 6 etaient actif avant :

Citation :


md2 : active raid5 sdg[6] sdh[5] sde[4] sdd[3] sdf[2] sdc[1]
      215061504 blocks level 5, 32k chunk, algorithm 2 [7/6] [_UUUUUU]


c'est un cat /proc/mdstat, que j'avais fait il y a quelques jours ... ( je le faisais dans un cron , donc je n'y avait pas particluerement pretes attention ).
 
N'y a t'il pas moyen de rendre ces disques actif ? tout du moins /dev/sda et /dev/sdb ...  
 
Voilà, donc si quelqu'un aurait l'ombre d'un soupcon d'une idée pour tenter de recuperer se qui peux etre recuperable, je suis preneur, ( avant de me suicider ).
 
A+

Reply

Marsh Posté le 11-06-2003 à 20:24:53    

Dernier UP, pour la forme ... :(

Reply

Marsh Posté le 11-06-2003 à 23:51:44    

je sais pas, mais UP  :bounce:


Message édité par Helter-skelter le 11-06-2003 à 23:52:07
Reply

Marsh Posté le 12-06-2003 à 17:05:14    

Bon, du nouveau ...
 
 
En faisant un :
# mdadm -A --force /dev/md2 /dev/sd[a-h]
mdadm: /dev/md2 has been started with 7 drives.
 
Bon apparement avec ca c'est reparti, MAIS, en
montant md2, j'ai :
# ls -al
ls: nohup.out: Input/output error
ls: tape.sh: Input/output error
ls: .viminfo: Input/output error
ls: .bash_history: Input/output error
ls: .bashrc~: Input/output error
ls: .xauth: Input/output error
 
Je me suis dis, qu'un bon reboot ne ferais pas de mal,
de facon a ce qu'il me fasse un e2fsck ( je ne connais
pas trop les options et est tjrs peur de me tromper ).
 
Mais en rebootant, il bloque la dessus :
[...]
md: updating md2 RAID superblock device
md: sdg [events: 000005a]<6>write sdg's sb offset
35843584
md: sdh [events: 000005a]<6>write sdh's sb offset
35843584
md: sde [events: 000005a]<6>write sde's sb offset
35843584
md: sdd [events: 000005a]<6>write sdd's sb offset
35843584
 
Ca fait bien 3h, que c'est au meme point, pourtant
l'ecran n'est pas gelée, et il y a de l'activité
disque.
 
Ma question est : qu'est il en train de faire ?
 
Il reconstruit le RAID ? y a pas un message qui
s'affiche avant de faire ca ?

Reply

Marsh Posté le 12-06-2003 à 17:07:26    

Il est probable qu'il reconstruise le raid ... En fonction de la taille du raid, la vitesse des disques, et la vitesse du cpu, ça peut prendre très lgtps ...

Reply

Marsh Posté le 12-06-2003 à 17:18:18    

Ok, je v laisser tourner, ptet que le pti cierge que j'avais mis a coter fait son effet :D
 
Sinon d'habitude pour les reconstructions de raid y a pas un message qui l'explicite vraiement ? il me semble deja avoir vu ca ...
 
A+

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed