Démarches et Tests infrastructure de sauvegarde

Démarches et Tests infrastructure de sauvegarde - Stockage - Systèmes & Réseaux Pro

Marsh Posté le 28-06-2010 à 18:38:13    

Bonjour,
 
je tiens à préciser que je suis tout nouveau dans la sauvegarde.
Question principale:J'aurais aimé savoir comment quelqu'un "du métier" s'y prend pour "débuguer" une infra de sauvegarde?
Présentation, vite fait de la sauvegarde que je regarde:
Je suis dans une boite qui traite environ 10To/FULL en 60h dans le WE, avec 6 LTO3 et netbackup 6.5 dans le milieu.
La sauvegarde est multi plateforme (win, linux, aix,.....) sur des serveurs hétérogène (physique, virtuels, avec connexion 1Gbps, d'autre en 100Mbps) certain ayant une connexion au lan (100/1Gbps) d'autre au SAN (1/2/4Gbps).
les lecteurs sont "pilotés" par un z-series.
une infra de sauvegarde à base de K7 et de disques, avec du staging (passage disque sur K7).
 
j'ai fait un test d'écriture :
-2 serveurs test (LAN): un en 100Mbps, un en Gbps, même type de données, même switch, même Vlan, les deux physique, bref j'ai essayer de trouver des serveurs les plus identiques possibles (qu'il n'y ai que leur carte réseau qui diffèrent).
-2 média serveurs (LAN-SAN) vus comme un pool
-1 master serveur (LAN)
-une baie de disque
-un robot SL_8500 avec 6 lecteurs LTO3
-un z-series pour piloter les lecteurs LTO3
 
Lors du test j'ai relevé:- écriture d'un serveur (un en 100Mbps et un autre en 1Gbps) sur bande : 11Mo/s environ. :pfff:  
- écriture d'un serveur (un en 100Mbps et un autre en 1Gbps) sur disque : 11Mo/s environ. :pfff:  
- staging pour ces deux serveurs: 20Mo/s environ. (plus rapide car déjà découpé et indexé par le Master je pense). :(  
 
Alors que les lecteurs LTO3 annonce 80Mo/s !!! :fou:  
suite à cela j'ai fait un peu de supervision:
-  avec Cacti j'ai regardé si les charges réseau étaient aux limites des possibilités de chacun
Seul un des deux média serveur semblait un peu chargé avec sur l'attachement LAN des pointes à 800Mbps sur les 1Gbps disponibles.
Il y a eu un problème de monitoring sur l'autre média serveur (problème, toujours pas résolu, mais bref...)
Sinon les autres serveurs étaient "à l'aise dans leur petite carte réseau".
 
Avec Nagios j'ai donc regardé s'il s'agissait d'un problème de CPU ou de RAM.
Niveau CPU tout le monde est "à l'aise"
Niveau RAM aussi (média à 1000Mo sur 4Go dispo).
 
Donc je ne comprends pas:  
Je ne comprends pas que l'on écrive aussi vite sur disque que sur bande.
Je ne comprends pas que même en staging on n’atteigne pas les 80 Mo/s.
Je ne comprends pas la cause de ce ralentissement.

 
Alors oui il y a beaucoup de facteurs en jeu. Mais déjà dans un premier temps, voyez vous, là, un point obvious que j'aurais oublié de regarder?
 
Ensuite une autre question:
Chaque full, une personne relève les temps mis pour la sauvegardes pour chaque jobs, ainsi que le nombre de fichier sauvegardés et le volume sauvegardé.
Paramètre propre à Netbackup, les temps qui me sont communiqués sont des "Elapsed Time", ne connaissant pas netbackup, je fouille un peu, et je vois que ce temps n'est ni un temps d'écriture sur les lecteurs, ni un temps élapse (c'est à dire le temps que le jobs soit mis en cue (en attente) puis traité).
Donc quid de ce Elapsed Time? :sweat:  
 
et comment pourrais-je monitorer mes lecteurs, afin de faire des statistiques d'utilisation? :sweat:  
 
Voilà ça fait beaucoup de questions et de lecture, mais si vous pouviez m'éclairer sur deux/trois points je vous en serai reconnaissant.
 
Bien cordialement,
                                  P.
 
 

Reply

Marsh Posté le 28-06-2010 à 18:38:13   

Reply

Marsh Posté le 29-06-2010 à 01:02:08    

Bonsoir,
 
effectivement c'est bizarre d'obtenir les mêmes valeurs autant avec des cartes en 100 Mbps qu'en Gbps (en même temps les valeurs des cartes 100 MBps me semblent tout à fait normales).
 
Mon avis (qui n'engage que moi):
 
- Vérifie ta baie de disque et teste ses performances
- Pour le staging renseigne-toi avec le provider. 80 mo/s est-ce un débit théorique ?
- Vérifie ton switch aussi (VLan adressage mac je suppose et auto-négo ?)
- Le point "2 médias LAN-SAN", quelle techno utilisée ?
- Je pense que tu devrais te concentrer d'abord sur la partie disque (lecture/écriture I/O = temps accès disque) avant de t'occuper du transfert DD-LTO
- Concernant le Elapsed Time de NetBackup, si ma mémoire est bonne il s'agirait du temps entre le début et la fin du job


---------------
Toi tu me prends vraiment pour un con ou bien tu te fous de ma gueule ?
Reply

Marsh Posté le 29-06-2010 à 09:40:25    

Bonjour,
merci beaucoup de ta réponse,
 
-  concernant les 80Mo/s c'est une donnée des caractéristique du robot sl8500 de storagetek (racheté par Sun, racheté par Oracle).
 
-  Pour verifier la baie de disque et ses performance je ne sais pas  
vraiment comment faire, mais je vais me re,seigner.
 
- pour les VLAN je sais pas, y'a un pole réseau, j'irais demander, mais je ne comprend pas vraiment ton pont de vue là dessus. En quoi ça pourrait être un "goulot d'étranglement"? A part de part sa carte réseau je vois pas trop (genre si tu connecterai des serveurs avec carte Gbps à un SW en 100Mbps), mais sinon je vois pas. Bref j'ai pas bien compris...
 
- le point LAN-SAN, ce son deux média serveurs (qui tourne sous un win2003) arrivée LAN eth en gbps, sortie SAN fiber channel 2Gbps.
 
- pour les lecteurs je suis assez d'accord c'est un élément que j'aimerais bien traiter, mais je ne sais pas vraiment comment faire.
Netbackup a ses traitement particulier, et mets les jobs en cue, ils sont donc traité quand bon lui nsemble. Mais mes connaissance de Netbackup sont bien faible, j'ai encore beaucoup à apprendre.
 
- pour le elapsed time je fais un retour sur les temps mais je pense pas que ce soit tout à fait ça.
 
Encore merci

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed