[Topic ZFS] ZFS on Linux et BSD - débats/questions

ZFS on Linux et BSD - débats/questions [Topic ZFS] - Logiciels - Linux et OS Alternatifs

Marsh Posté le 24-01-2015 à 18:01:07    

Bienvenue sur le Topic ZFS
 
Vous pouvez partager ici vos questions, idées et débats et plus si affinité...
 
(espace réservé pour mettre plein de choses utiles et interessantes ici  [:cerveau du chaos] )
 
Liens interessants pour faire connaissance avec ZFS:


et pour l'utilisateur avancé ou le développeur que veut comprendre le fonctionnement interne de ZFS:


 
astuces:
 

  • htop peut prendre en compte le cache zfs (ARC):  

=>  utilisez ce patch: https://github.com/Traviis/htop/com [...] 2bc615fdee
 =>  rajoutez l'option --enable-zfs-cache-awareness au "configure"


Message édité par sligor le 04-08-2015 à 13:59:41

---------------
qwerty-fr
Reply

Marsh Posté le 24-01-2015 à 18:01:07   

Reply

Marsh Posté le 24-01-2015 à 18:48:04    

drapal !


---------------
Spécialiste du bear metal
Reply

Marsh Posté le 25-01-2015 à 01:01:33    

drap!

Reply

Marsh Posté le 25-01-2015 à 11:51:58    

Bon je vais commencer par une question assez technique:  
Avec ZFS, utiliser un HBA SAS (c'est à dire un convertisseur "brut" SAS <-> pci-express, ou un controlleur en mode "IT" qui bypass la gestion RAID) ça apporte vraiment un plus niveau perf par rapport à un contrôleur RAID hardware ?  
 
C'est assez confus, sur les forums ça semble une préoccupation de pas mal de monde.  
C'est un délire de geek pour gagner quelques % ou il y a vraiment un problème avec les contrôleurs RAID hardware ?

Message cité 2 fois
Message édité par sligor le 25-01-2015 à 11:52:36

---------------
qwerty-fr
Reply

Marsh Posté le 25-01-2015 à 16:05:56    

de ce que j'ai lu, zfs perd pas mal en perf sur du raid hard. (lu sur xtba)

Reply

Marsh Posté le 26-01-2015 à 08:00:46    

sligor a écrit :

Bon je vais commencer par une question assez technique:  
Avec ZFS, utiliser un HBA SAS (c'est à dire un convertisseur "brut" SAS <-> pci-express, ou un controlleur en mode "IT" qui bypass la gestion RAID) ça apporte vraiment un plus niveau perf par rapport à un contrôleur RAID hardware ?  
 
C'est assez confus, sur les forums ça semble une préoccupation de pas mal de monde.  
C'est un délire de geek pour gagner quelques % ou il y a vraiment un problème avec les contrôleurs RAID hardware ?


 
ZFS va chercher a utiliser les fonctionnalités RAID de la carte, et vue que ces fonctionnalités même si partant du même set d'instruction (SAS RAID) n'ont pas une fonctionnement harmonisé, ça peut poser des soucis de choses bizarres et de pertes de perf (jusqu'a 25% suivant les retry).
Juste désactivé l'oprom RAID ne désactive pas le contrôleur, ça désactive juste la possibilité de booté, puisque les OS une fois lancé passent en mode kernel et parlent directement aux contrôleurs sans passer par les firmware. Il faut donc désactivé le rtOS des contrôleurs et donc les flasher.
Sans compter que ça modifie l'encode sur les disques et rajoute un overhead (ZFS peut enregistrer des données sur 128bits alors qu'on est systématiquement en 8/10 sur SAS/SATA RAID)

Reply

Marsh Posté le 26-01-2015 à 09:56:12    

merci pour ces réponses, je pense que je vais éviter le flashage et prendre un carte additionnelle:
http://www.ldlc-pro.com/fiche/PB00140691.html
 
le prix est négligeable par rapport au coût total du serveur


---------------
qwerty-fr
Reply

Marsh Posté le 26-01-2015 à 10:42:13    

Petite question vu la blague du we:
 
y a des caractères interdit à mettre dans un mountpoint?
 
car j'en avais un avec un tiret et après un reboot, pas de montage possible, je crée un mountpoint sans tiret et hop nickel à chaque fois oO

Reply

Marsh Posté le 26-01-2015 à 11:16:34    

gizmo15 a écrit :

Petite question vu la blague du we:
 
y a des caractères interdit à mettre dans un mountpoint?
 
car j'en avais un avec un tiret et après un reboot, pas de montage possible, je crée un mountpoint sans tiret et hop nickel à chaque fois oO


ZFS on Linux ? si tu arrives facilement à reproduire le problème je te conseille fortement de faire un bug report: https://github.com/zfsonlinux/zfs/issues


Message édité par sligor le 26-01-2015 à 11:17:04

---------------
qwerty-fr
Reply

Marsh Posté le 26-01-2015 à 12:15:53    

ouaip zol, vais essayer de monter un env pour reproduire ca :jap:

Reply

Marsh Posté le 26-01-2015 à 12:15:53   

Reply

Marsh Posté le 27-01-2015 à 12:37:56    

j'essaye de reproduire le soucis dans une vm hébergé sur un proxmox, pas de soucis d'installation and co, mais quand je fais un mirror et que je reboot y a plus de zpool... oO
 
et ce à chaque fois que je reboot, mais sans reboot pas de soucis...

Reply

Marsh Posté le 27-01-2015 à 16:24:57    

Ca sent les problèmes d'encodage supporté par le kernel et dans l'environnement. Fait un check de consistance (vérifier si t'es bien en UTF partout par exemple).

Reply

Marsh Posté le 29-01-2015 à 11:21:46    

je pensais avoir solutionné le soucis pour mon serveur mais pareil, au reboot, plus de montage de zfs....
 
j'ai ajouté le fr UTF8 aux locale et on va voir mais bon c'est chiant.
 
je suis sur le kernel 2.6 de proxmox avec le support d'openvz, ca pourrais venir de ca?

Reply

Marsh Posté le 29-01-2015 à 18:55:46    

bon j'ai un bon gros crashtest tout simple à vous soumettre:
 

Code :
  1. for i in {1..200}; do cp -R linux linux-$i & done;


 
chez moi zfs fini au bout de quelques minutes par se bloquer avec gros un deadlock entre swapd/threads zfs/multiples processes cp en train de faire un syscall
 
je serais curieux de savoir si vous avez le même problème (évitez de faire ça sur une machine de prod quand même :o )


Message édité par sligor le 29-01-2015 à 18:56:43

---------------
qwerty-fr
Reply

Marsh Posté le 11-02-2015 à 10:34:11    

vous avez une "rule of thumb" pour le dimensionnement RAM/SSD(L2ARC)/HDD avec ZFS ?
 
j'aurais dit, vu ce que j'ai lu, un rapport grosso-modo 1/10/100
 
(exemple: 128Go RAM /1TB SSD/10TB HDD)
 
vous en pensez quoi ?
 
edit: sans déduplication évidement :jap:


Message édité par sligor le 11-02-2015 à 15:21:09

---------------
qwerty-fr
Reply

Marsh Posté le 11-02-2015 à 21:09:20    

Déjà est-ce que tu as vraiment besoin de L2ARC ? Ca vaudrait vraiment le coup si tu as la possibilité, de tester avec et sans...
 
Pour ce qui est du ARC lui-même (donc en RAM), nous on a des machines à 1TB de RAM pour peut-être 10TB de données, et on limite le ARC à 100GB sans problème de performance particulier. C'est du Solaris sur SPARC mais je pense pas qu'il y ait une différence massive de ratio entre les 2 archis ou les 2 OS.
 
A noter que le ARC est obsolète en solaris 11.2 et on a que du 11.2 en x86 donc je peux pas trop te donner de chiffres pour x86...


---------------
Le monsieur arrive.
Reply

Marsh Posté le 12-02-2015 à 19:58:14    

bonne remarque, je vais faire des stats de hit vs miss sur le L2ARC, bon après c'est pas les ssd que je prends qui coûtent le plus cher


---------------
qwerty-fr
Reply

Marsh Posté le 13-02-2015 à 10:24:50    

LOL POLARISE a écrit :

Déjà est-ce que tu as vraiment besoin de L2ARC ? Ca vaudrait vraiment le coup si tu as la possibilité, de tester avec et sans...
 
Pour ce qui est du ARC lui-même (donc en RAM), nous on a des machines à 1TB de RAM pour peut-être 10TB de données, et on limite le ARC à 100GB sans problème de performance particulier. C'est du Solaris sur SPARC mais je pense pas qu'il y ait une différence massive de ratio entre les 2 archis ou les 2 OS.
 
A noter que le ARC est obsolète en solaris 11.2 et on a que du 11.2 en x86 donc je peux pas trop te donner de chiffres pour x86...


 
10TB ca reste une volumétrie ou tu verra pas de gros problèmes sur l'ARC, 10G doivent suffire. Mais quand tu commence a aligner 10/16 baies JBOD raz la gueule de disques de 3G, la ton ARC ... Mes nodes a 200TB, 500G de ARC je commence a être juste.

Reply

Marsh Posté le 14-02-2015 à 08:08:32    

Oui mais là il parlait d'un ratio 1/10/100 pour ram/ssd/stockage, et du coup je disais que 100g de RAM pour 10TB de stockage ça passe bien. Toi tu me sors 200TB de stockage par noeud :o


---------------
Le monsieur arrive.
Reply

Marsh Posté le 18-02-2015 à 11:54:27    

(liens rajoutés en first page)


---------------
qwerty-fr
Reply

Marsh Posté le 20-02-2015 à 10:07:13    

fun fact: sur la dernière génération de serveurs dell (poweredge 530/630/730 etc...) les contrôleurs raid (perc H330/H730) ont un mode HBA activable déjà intégré dans le firmware . Plus besoin de flasher le firmware.
 

Citation :


PERC 9 series of cards support two personality modes.
• RAID mode: RAID mode is commonly used and the controllers are mostly shipped from the factory in
RAID mode. This mode allows the creation and operation of RAID virtual disks and non-RAID disks.
HBA mode: In the HBA mode, PERC controller operates as Host Bus Adapter (HBA). This mode does
not contain virtual disks or the ability to create them. All physical disks function as non-RAID disks
under operating system control. The PERC card acts as a conduit between the host server and the
physical disks. Input and output requests originate from the host and are passed through the
controller to the physical drives. HBA mode is the approach used for Windows Storage Spaces.
NOTE: HBA mode should be enabled for customers, using Microsoft Storage Spaces or VMware


 
je rajoute à la "NOTE": HBA mode should be enabled for customers using ZFS  :jap:


Message édité par sligor le 20-02-2015 à 10:08:19

---------------
qwerty-fr
Reply

Marsh Posté le 09-04-2015 à 21:29:22    

ZFS on linux 0.6.4 est sorti  [:kadreg]  
 
avec un tas de nouvelles fonctionnalité et de correction de bug listés dans l'annonce sur la ML:
http://list.zfsonlinux.org/piperma [...] 00001.html
 
 
et pour suivre les ML de btrfs c'est également très très actif chez ce concurrent de ZFS.


Message édité par sligor le 09-04-2015 à 21:30:43

---------------
qwerty-fr
Reply

Marsh Posté le 10-05-2015 à 20:06:23    

Pour ma part j'utilise ZFS sur OpenIndiana. Le mode IT des cartes LSI c'est pour prendre les DD en natif au lieu de faire des trucs bizarres du genre RAID0 de 1 disque, sur chaque disque.


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Marsh Posté le 10-05-2015 à 21:50:11    

je confirme mon bug sur proxmox + zfs on linux.
 
si je reboot, je peux plus monter mon mirror sur le même dossier, obligé de changer le point de montage.
 
le soucis? le dossier cible du point de montage n'est pas vide, y a des dossiers dedans qui résulte du stockage des vms

Reply

Marsh Posté le 10-05-2015 à 21:53:52    

Si y'a des dossiers/fichiers dedans, c'est que le zfs a été démonté avant que les process qemu/les différents process de proxmox ne soient arrêtés.
Ou alors qu'il tente de se monter après que ceux-ci soient démarrés.


---------------
Fort et motivé. Sauf parfois.
Reply

Marsh Posté le 11-05-2015 à 11:42:18    

oui possible, j'avoue que pour l'instant pas cherché plus vu que y a des services dessus mais ca va changer donc je pourrais regarder ca

Reply

Marsh Posté le 16-06-2015 à 14:07:07    

ça pourrait en intéresser certains:
https://github.com/zfsonlinux/zfs/issues/3497
 

Citation :

Intel is working on parity declustered RAIDz/mirror for ZFS on Linux. Designs and early prototype/code will be shared with the community when available.


 

Citation :

I also plan to give a talk at the OpenZFS Developer Summit this
October.


---------------
qwerty-fr
Reply

Marsh Posté le 16-06-2015 à 14:30:37    

Tu peux faire un mini topo briefing ? :o
 
Ça consiste en quoi en gros :o


---------------
Spécialiste du bear metal
Reply

Marsh Posté le 16-06-2015 à 14:50:49    

Plam a écrit :

Tu peux faire un mini topo briefing ? :o
 
Ça consiste en quoi en gros :o


http://indico.cern.ch/event/160737 [...] ides/0.pdf
 
c'est pour améliorer la fiabilité pour du gros stockage avec plusieurs nœuds de stockage. Le but c'est de ne pas avoir l'array RAID sur un seul nœud mais de l'avoir réparti entre différent nœuds, comme ça si un nœud tombe entièrement on a toujours accès au stockage. ça permet notament d'utiliser du matériel moins fiable et moins cher (avec moins de redondance) pour le nœud de stockage. C'est le principe du RAID appliqué à des nœuds quoi.

Message cité 1 fois
Message édité par sligor le 16-06-2015 à 19:05:15

---------------
qwerty-fr
Reply

Marsh Posté le 16-06-2015 à 15:33:26    

:jap:

 

edit : haaaann le truc écrit en Comic MS :cry:


Message édité par Plam le 16-06-2015 à 15:33:45

---------------
Spécialiste du bear metal
Reply

Marsh Posté le 09-07-2015 à 16:34:59    

sligor a écrit :


http://indico.cern.ch/event/160737 [...] ides/0.pdf
 
c'est pour améliorer la fiabilité pour du gros stockage avec plusieurs nœuds de stockage. Le but c'est de ne pas avoir l'array RAID sur un seul nœud mais de l'avoir réparti entre différent nœuds, comme ça si un nœud tombe entièrement on a toujours accès au stockage. ça permet notament d'utiliser du matériel moins fiable et moins cher (avec moins de redondance) pour le nœud de stockage. C'est le principe du RAID appliqué à des nœuds quoi.


 
doc bien foutu à part la police ... qui ose le comic  [:neernitt]  
c'est en train de devenir le standard du marché sur du scale-out.
l'erasure-coding ça fait 2/3 ans qu'on en parle et ça fait son trou petit à petit ... ça marche bien.
le RAIN, c'est pas vraiment nouveau introduit par filepool au début des années 2000 avant le rachat par EMC qui aboutira au centera (à noter que le même principe avait été repris pour feu le grid avamar)


---------------
En théorie, la théorie et la pratique sont identiques, en pratique, non.
Reply

Marsh Posté le 13-07-2015 à 23:31:37    

J'ai une question de débutant :
Peut-on agrandir un RAIDZ2 (qui si j'ai compris ressemble à un RAID6) tant en échangeant les disques par des plus grand qu'en ajoutant des disques ?


---------------
Liberkey, colection d'utilitaires sur clef USB / Silverstone DS380 - Mini tour ITX 8 baies Hot-swap 3.5"
Reply

Marsh Posté le 13-07-2015 à 23:47:18    

non, tu peux seulement agrandir ton pool en ajoutant un VDEV, c'est à dire une grappe RAIDZ2 supplémentaire (ou n'importe quelle autre VDEV, disque simple, mirroir, RAIDZ1...)
Les devs de ZFS se sont limités niveau fonctionnalités complexes ce qui a donné en contrepartie quelque chose de stable et fiable.
 
A l'inverse BTRFS est très ambitieux, sait faire (en théorie) ce que tu demandes mais en pratique l'implémentation est très bugguée malgré des années de dev, et les pertes de données sans raison sont courantes. (troll du soir)


Message édité par sligor le 14-07-2015 à 00:02:18

---------------
qwerty-fr
Reply

Marsh Posté le 13-07-2015 à 23:54:24    

cf la section "The inflexibility of ZFS":
http://louwrentius.com/the-sorry-s [...] stems.html
 


---------------
qwerty-fr
Reply

Marsh Posté le 14-07-2015 à 00:48:07    

Et en échangeant par des disques plus grands ?
(naturellement un à un et en laissant le temps de la reconstruction à chaque fois)


---------------
Liberkey, colection d'utilitaires sur clef USB / Silverstone DS380 - Mini tour ITX 8 baies Hot-swap 3.5"
Reply

Marsh Posté le 14-07-2015 à 12:28:35    

il me semble que ca c'est faisable.

Reply

Marsh Posté le 14-07-2015 à 13:36:45    

Je crois que je suis tombé sur une mine d'or même pour les pro qui sont ici : le Guide d'administration Solaris ZFS en français !
http://ftp.halpanet.org/doc/guide_zfs.pdf
 
On peut y lire page 115 :

Citation :

Si la taille du périphérique de remplacement est supérieure, la capacité du pool s'accroît une
fois le remplacement terminé.


 
Perso, j'en conclu que si je remplace les disques un a un par des plus gros alors je peux faire grandir mon espace de stockage sans ajouter de VDEV.
Mais puis-je avoir une confirmation ?
(en gros, si je remplace des disques d'1To par des disques de 2To je double la taille de mon pool)
 
 
Pour l'explication : je vais me faire un serveur de stockage de 8 disques sous freenas.
J'aimerai une tolérance de panne de 2 disques, donc soit un RAID6 soit un RAIDZ2
Et je prend des renseignements sur ce qu'il est possible de faire pour l'évolution du stockage affin de prendre ma décision entre Ext et ZFS.
J'ai bien compris qu'il faut beaucoup de mémoire pour avoir de bonne performances car ZFS l'utilise comme cache. Mais avant de chercher des performances je cherche déjà à répondre à deux questions :
1 peut-on agrandir le raid/raidz en ajoutant des disques ?
2 peut-on agrandir le raid/raidz en remplaçant les disques par des plus grands ?
 
 
Pour la 1 il semble que zfs ne le permette pas dans le même vdev, pour agrandir un pool il faut lui ajouter un vdev.
Mais alors supposons le scénario suivant :
j'ai un zpool de 5 disques d'1To en RAIDZ2 en un seul vdev, j'ajoute un vdev composé d'un disque d'1To. Est-ce que les données sur ce nouveau disque seront elle aussi sécurisée via le RAIDZ2 (une fois l'intégration/reconstruction terminée) ?
Le zpool est-il agrandi en élargissant le RAIDZ2 au deux vdev ou alors le second vdev est-il ajouté via une simple concaténation au raidz2 sans l'intégrer (un peu comme si le nouveau disque était ajouté en JBOD) ?
 
 
Pour la 2 comme déjà dit il semble que oui mais j'aimerai confirmation ou information.


---------------
Liberkey, colection d'utilitaires sur clef USB / Silverstone DS380 - Mini tour ITX 8 baies Hot-swap 3.5"
Reply

Marsh Posté le 14-07-2015 à 13:44:11    

alors pour le 1, oui, impossible faut ajouter un vdev avec le même nombre de disques.
 
et effectivement j'ai lu sur smp-fr que tu peux augmenter la taille de ton raid en changeant les disques par des plus gros

Reply

Marsh Posté le 15-07-2015 à 01:21:19    

Je viens de trouver LE manuel du zfs en version plus récente :
http://docs.oracle.com/cd/E26919_01/pdf/E25822.pdf
 
Page 119 :

Citation :

Remplacement d'un disque dans un pool racine ZFS
Vous pouvez être amené à remplacer un disque dans le pool racine pour les raisons suivantes :
■ Le pool racine est trop petit et vous souhaitez le remplacer par un disque plus grand.
■ Le disque du pool racine est défectueux


 
Donc j'ai la confirmations que l'on peut remplacer un disque par un plus grand.
Reste à "m’initier" au pool, zpool, vdev et tout ça pour savoir comment fonctionne l'ajout de disques et si c'est dans le sens que je désire.
 
Merci.

Message cité 1 fois
Message édité par LimDul le 15-07-2015 à 01:35:08

---------------
Liberkey, colection d'utilitaires sur clef USB / Silverstone DS380 - Mini tour ITX 8 baies Hot-swap 3.5"
Reply

Marsh Posté le 15-07-2015 à 11:49:03    

LimDul a écrit :

Je viens de trouver LE manuel du zfs en version plus récente :
http://docs.oracle.com/cd/E26919_01/pdf/E25822.pdf
 
Page 119 :

Citation :

Remplacement d'un disque dans un pool racine ZFS
Vous pouvez être amené à remplacer un disque dans le pool racine pour les raisons suivantes :
■ Le pool racine est trop petit et vous souhaitez le remplacer par un disque plus grand.
■ Le disque du pool racine est défectueux


 
Donc j'ai la confirmations que l'on peut remplacer un disque par un plus grand.
Reste à "m’initier" au pool, zpool, vdev et tout ça pour savoir comment fonctionne l'ajout de disques et si c'est dans le sens que je désire.
 
Merci.


:hello:  Nous on fais des expand/gros de zpool, mais on est en solaris/sparc... Notre procedure (si ca vous aide):
 
Contexte: on a des disques dans un SAN, donc quand on presente un LUN de 80GB et qu'on fait un expand dans la baie de disque, il faut ensuite instruire l'OS que ses disques sont plus gros.
 

Solaris 11 san expand zpool zfs :
 
# Original situation:
[bsto@g-t5-prod6 ~ ] zpool list
NAME                SIZE  ALLOC   FREE  CAP  DEDUP  HEALTH  ALTROOT
DATAHUB_PARKING    79.5G  35.9G  43.6G  45%  1.00x  ONLINE  -
 
 
# Check if zpool is on autoexpand - set to "on"
[bsto@g-t5-prod6 ~ ] nus zpool get autoexpand DATAHUB_PARKING
NAME             PROPERTY    VALUE  SOURCE
DATAHUB_PARKING  autoexpand  off    default
 
[bsto@g-t5-prod6 ~ ] nus zpool set autoexpand=on DATAHUB_PARKING
 
# Shake disks
nus cfgadm -al
 
# Change partition
[bsto@g-t5-prod6 ~ ] nus format c0t60050768028081118C00000000000200d0
p - partition
expand
# answer yes soeur
 
# Check (p)
(s2 should have grown [expanded {bigger}])
BEFORE:
Part      Tag    Flag     Cylinders         Size            Blocks
  0       root    wm       0 - 10237       79.98GB    (10238/0/0) 167739392
  1       swap    wu       0                0         (0/0/0)             0
  2     backup    wu       0 - 10237       79.98GB    (10238/0/0) 167739392
 
AFTER VIAGRA:
Part      Tag    Flag     Cylinders         Size            Blocks
  0       root    wm       0 - 10237       79.98GB    (10238/0/0) 167739392
  1       swap    wu       0                0         (0/0/0)             0
  2     backup    wu       0 - 12157       94.98GB    (12158/0/0) 199196672
 
 
# Change slice 0
0
<ENTER>
<ENTER>
<ENTER>
$ (take everything)
la
-> y (it will complain if the device is in-use -> don't give a damn)
 
q
-> profit!
 
[bsto@g-t5-prod6 ~ ] zpool list DATAHUB_PARKING
NAME              SIZE  ALLOC   FREE  CAP  DEDUP  HEALTH  ALTROOT
DATAHUB_PARKING  94.5G  35.9G  58.6G  37%  1.00x  ONLINE  -

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed