ZFS on Linux et BSD - débats/questions [Topic ZFS] - Logiciels - Linux et OS Alternatifs
Marsh Posté le 25-01-2015 à 11:51:58
Bon je vais commencer par une question assez technique:
Avec ZFS, utiliser un HBA SAS (c'est à dire un convertisseur "brut" SAS <-> pci-express, ou un controlleur en mode "IT" qui bypass la gestion RAID) ça apporte vraiment un plus niveau perf par rapport à un contrôleur RAID hardware ?
C'est assez confus, sur les forums ça semble une préoccupation de pas mal de monde.
C'est un délire de geek pour gagner quelques % ou il y a vraiment un problème avec les contrôleurs RAID hardware ?
Marsh Posté le 25-01-2015 à 16:05:56
de ce que j'ai lu, zfs perd pas mal en perf sur du raid hard. (lu sur xtba)
Marsh Posté le 26-01-2015 à 08:00:46
sligor a écrit : Bon je vais commencer par une question assez technique: |
ZFS va chercher a utiliser les fonctionnalités RAID de la carte, et vue que ces fonctionnalités même si partant du même set d'instruction (SAS RAID) n'ont pas une fonctionnement harmonisé, ça peut poser des soucis de choses bizarres et de pertes de perf (jusqu'a 25% suivant les retry).
Juste désactivé l'oprom RAID ne désactive pas le contrôleur, ça désactive juste la possibilité de booté, puisque les OS une fois lancé passent en mode kernel et parlent directement aux contrôleurs sans passer par les firmware. Il faut donc désactivé le rtOS des contrôleurs et donc les flasher.
Sans compter que ça modifie l'encode sur les disques et rajoute un overhead (ZFS peut enregistrer des données sur 128bits alors qu'on est systématiquement en 8/10 sur SAS/SATA RAID)
Marsh Posté le 26-01-2015 à 09:56:12
merci pour ces réponses, je pense que je vais éviter le flashage et prendre un carte additionnelle:
http://www.ldlc-pro.com/fiche/PB00140691.html
le prix est négligeable par rapport au coût total du serveur
Marsh Posté le 26-01-2015 à 10:42:13
Petite question vu la blague du we:
y a des caractères interdit à mettre dans un mountpoint?
car j'en avais un avec un tiret et après un reboot, pas de montage possible, je crée un mountpoint sans tiret et hop nickel à chaque fois oO
Marsh Posté le 26-01-2015 à 11:16:34
gizmo15 a écrit : Petite question vu la blague du we: |
ZFS on Linux ? si tu arrives facilement à reproduire le problème je te conseille fortement de faire un bug report: https://github.com/zfsonlinux/zfs/issues
Marsh Posté le 26-01-2015 à 12:15:53
ouaip zol, vais essayer de monter un env pour reproduire ca
Marsh Posté le 27-01-2015 à 12:37:56
j'essaye de reproduire le soucis dans une vm hébergé sur un proxmox, pas de soucis d'installation and co, mais quand je fais un mirror et que je reboot y a plus de zpool... oO
et ce à chaque fois que je reboot, mais sans reboot pas de soucis...
Marsh Posté le 27-01-2015 à 16:24:57
Ca sent les problèmes d'encodage supporté par le kernel et dans l'environnement. Fait un check de consistance (vérifier si t'es bien en UTF partout par exemple).
Marsh Posté le 29-01-2015 à 11:21:46
je pensais avoir solutionné le soucis pour mon serveur mais pareil, au reboot, plus de montage de zfs....
j'ai ajouté le fr UTF8 aux locale et on va voir mais bon c'est chiant.
je suis sur le kernel 2.6 de proxmox avec le support d'openvz, ca pourrais venir de ca?
Marsh Posté le 29-01-2015 à 18:55:46
bon j'ai un bon gros crashtest tout simple à vous soumettre:
Code :
|
chez moi zfs fini au bout de quelques minutes par se bloquer avec gros un deadlock entre swapd/threads zfs/multiples processes cp en train de faire un syscall
je serais curieux de savoir si vous avez le même problème (évitez de faire ça sur une machine de prod quand même )
Marsh Posté le 11-02-2015 à 10:34:11
vous avez une "rule of thumb" pour le dimensionnement RAM/SSD(L2ARC)/HDD avec ZFS ?
j'aurais dit, vu ce que j'ai lu, un rapport grosso-modo 1/10/100
(exemple: 128Go RAM /1TB SSD/10TB HDD)
vous en pensez quoi ?
edit: sans déduplication évidement
Marsh Posté le 11-02-2015 à 21:09:20
Déjà est-ce que tu as vraiment besoin de L2ARC ? Ca vaudrait vraiment le coup si tu as la possibilité, de tester avec et sans...
Pour ce qui est du ARC lui-même (donc en RAM), nous on a des machines à 1TB de RAM pour peut-être 10TB de données, et on limite le ARC à 100GB sans problème de performance particulier. C'est du Solaris sur SPARC mais je pense pas qu'il y ait une différence massive de ratio entre les 2 archis ou les 2 OS.
A noter que le ARC est obsolète en solaris 11.2 et on a que du 11.2 en x86 donc je peux pas trop te donner de chiffres pour x86...
Marsh Posté le 13-02-2015 à 10:24:50
LOL POLARISE a écrit : Déjà est-ce que tu as vraiment besoin de L2ARC ? Ca vaudrait vraiment le coup si tu as la possibilité, de tester avec et sans... |
10TB ca reste une volumétrie ou tu verra pas de gros problèmes sur l'ARC, 10G doivent suffire. Mais quand tu commence a aligner 10/16 baies JBOD raz la gueule de disques de 3G, la ton ARC ... Mes nodes a 200TB, 500G de ARC je commence a être juste.
Marsh Posté le 14-02-2015 à 08:08:32
Oui mais là il parlait d'un ratio 1/10/100 pour ram/ssd/stockage, et du coup je disais que 100g de RAM pour 10TB de stockage ça passe bien. Toi tu me sors 200TB de stockage par noeud
Marsh Posté le 20-02-2015 à 10:07:13
fun fact: sur la dernière génération de serveurs dell (poweredge 530/630/730 etc...) les contrôleurs raid (perc H330/H730) ont un mode HBA activable déjà intégré dans le firmware . Plus besoin de flasher le firmware.
Citation : |
je rajoute à la "NOTE": HBA mode should be enabled for customers using ZFS
Marsh Posté le 09-04-2015 à 21:29:22
ZFS on linux 0.6.4 est sorti
avec un tas de nouvelles fonctionnalité et de correction de bug listés dans l'annonce sur la ML:
http://list.zfsonlinux.org/piperma [...] 00001.html
et pour suivre les ML de btrfs c'est également très très actif chez ce concurrent de ZFS.
Marsh Posté le 10-05-2015 à 20:06:23
Pour ma part j'utilise ZFS sur OpenIndiana. Le mode IT des cartes LSI c'est pour prendre les DD en natif au lieu de faire des trucs bizarres du genre RAID0 de 1 disque, sur chaque disque.
Marsh Posté le 10-05-2015 à 21:50:11
je confirme mon bug sur proxmox + zfs on linux.
si je reboot, je peux plus monter mon mirror sur le même dossier, obligé de changer le point de montage.
le soucis? le dossier cible du point de montage n'est pas vide, y a des dossiers dedans qui résulte du stockage des vms
Marsh Posté le 10-05-2015 à 21:53:52
Si y'a des dossiers/fichiers dedans, c'est que le zfs a été démonté avant que les process qemu/les différents process de proxmox ne soient arrêtés.
Ou alors qu'il tente de se monter après que ceux-ci soient démarrés.
Marsh Posté le 11-05-2015 à 11:42:18
oui possible, j'avoue que pour l'instant pas cherché plus vu que y a des services dessus mais ca va changer donc je pourrais regarder ca
Marsh Posté le 16-06-2015 à 14:07:07
ça pourrait en intéresser certains:
https://github.com/zfsonlinux/zfs/issues/3497
Citation : Intel is working on parity declustered RAIDz/mirror for ZFS on Linux. Designs and early prototype/code will be shared with the community when available. |
Citation : I also plan to give a talk at the OpenZFS Developer Summit this |
Marsh Posté le 16-06-2015 à 14:30:37
Tu peux faire un mini topo briefing ?
Ça consiste en quoi en gros
Marsh Posté le 16-06-2015 à 14:50:49
Plam a écrit : Tu peux faire un mini topo briefing ? |
http://indico.cern.ch/event/160737 [...] ides/0.pdf
c'est pour améliorer la fiabilité pour du gros stockage avec plusieurs nœuds de stockage. Le but c'est de ne pas avoir l'array RAID sur un seul nœud mais de l'avoir réparti entre différent nœuds, comme ça si un nœud tombe entièrement on a toujours accès au stockage. ça permet notament d'utiliser du matériel moins fiable et moins cher (avec moins de redondance) pour le nœud de stockage. C'est le principe du RAID appliqué à des nœuds quoi.
Marsh Posté le 16-06-2015 à 15:33:26
edit : haaaann le truc écrit en Comic MS
Marsh Posté le 09-07-2015 à 16:34:59
sligor a écrit : |
doc bien foutu à part la police ... qui ose le comic
c'est en train de devenir le standard du marché sur du scale-out.
l'erasure-coding ça fait 2/3 ans qu'on en parle et ça fait son trou petit à petit ... ça marche bien.
le RAIN, c'est pas vraiment nouveau introduit par filepool au début des années 2000 avant le rachat par EMC qui aboutira au centera (à noter que le même principe avait été repris pour feu le grid avamar)
Marsh Posté le 13-07-2015 à 23:31:37
J'ai une question de débutant :
Peut-on agrandir un RAIDZ2 (qui si j'ai compris ressemble à un RAID6) tant en échangeant les disques par des plus grand qu'en ajoutant des disques ?
Marsh Posté le 13-07-2015 à 23:47:18
non, tu peux seulement agrandir ton pool en ajoutant un VDEV, c'est à dire une grappe RAIDZ2 supplémentaire (ou n'importe quelle autre VDEV, disque simple, mirroir, RAIDZ1...)
Les devs de ZFS se sont limités niveau fonctionnalités complexes ce qui a donné en contrepartie quelque chose de stable et fiable.
A l'inverse BTRFS est très ambitieux, sait faire (en théorie) ce que tu demandes mais en pratique l'implémentation est très bugguée malgré des années de dev, et les pertes de données sans raison sont courantes. (troll du soir)
Marsh Posté le 13-07-2015 à 23:54:24
cf la section "The inflexibility of ZFS":
http://louwrentius.com/the-sorry-s [...] stems.html
Marsh Posté le 14-07-2015 à 00:48:07
Et en échangeant par des disques plus grands ?
(naturellement un à un et en laissant le temps de la reconstruction à chaque fois)
Marsh Posté le 14-07-2015 à 13:36:45
Je crois que je suis tombé sur une mine d'or même pour les pro qui sont ici : le Guide d'administration Solaris ZFS en français !
http://ftp.halpanet.org/doc/guide_zfs.pdf
On peut y lire page 115 :
Citation : Si la taille du périphérique de remplacement est supérieure, la capacité du pool s'accroît une |
Perso, j'en conclu que si je remplace les disques un a un par des plus gros alors je peux faire grandir mon espace de stockage sans ajouter de VDEV.
Mais puis-je avoir une confirmation ?
(en gros, si je remplace des disques d'1To par des disques de 2To je double la taille de mon pool)
Pour l'explication : je vais me faire un serveur de stockage de 8 disques sous freenas.
J'aimerai une tolérance de panne de 2 disques, donc soit un RAID6 soit un RAIDZ2
Et je prend des renseignements sur ce qu'il est possible de faire pour l'évolution du stockage affin de prendre ma décision entre Ext et ZFS.
J'ai bien compris qu'il faut beaucoup de mémoire pour avoir de bonne performances car ZFS l'utilise comme cache. Mais avant de chercher des performances je cherche déjà à répondre à deux questions :
1 peut-on agrandir le raid/raidz en ajoutant des disques ?
2 peut-on agrandir le raid/raidz en remplaçant les disques par des plus grands ?
Pour la 1 il semble que zfs ne le permette pas dans le même vdev, pour agrandir un pool il faut lui ajouter un vdev.
Mais alors supposons le scénario suivant :
j'ai un zpool de 5 disques d'1To en RAIDZ2 en un seul vdev, j'ajoute un vdev composé d'un disque d'1To. Est-ce que les données sur ce nouveau disque seront elle aussi sécurisée via le RAIDZ2 (une fois l'intégration/reconstruction terminée) ?
Le zpool est-il agrandi en élargissant le RAIDZ2 au deux vdev ou alors le second vdev est-il ajouté via une simple concaténation au raidz2 sans l'intégrer (un peu comme si le nouveau disque était ajouté en JBOD) ?
Pour la 2 comme déjà dit il semble que oui mais j'aimerai confirmation ou information.
Marsh Posté le 14-07-2015 à 13:44:11
alors pour le 1, oui, impossible faut ajouter un vdev avec le même nombre de disques.
et effectivement j'ai lu sur smp-fr que tu peux augmenter la taille de ton raid en changeant les disques par des plus gros
Marsh Posté le 15-07-2015 à 01:21:19
Je viens de trouver LE manuel du zfs en version plus récente :
http://docs.oracle.com/cd/E26919_01/pdf/E25822.pdf
Page 119 :
Citation : Remplacement d'un disque dans un pool racine ZFS |
Donc j'ai la confirmations que l'on peut remplacer un disque par un plus grand.
Reste à "m’initier" au pool, zpool, vdev et tout ça pour savoir comment fonctionne l'ajout de disques et si c'est dans le sens que je désire.
Merci.
Marsh Posté le 15-07-2015 à 11:49:03
LimDul a écrit : Je viens de trouver LE manuel du zfs en version plus récente :
|
Nous on fais des expand/gros de zpool, mais on est en solaris/sparc... Notre procedure (si ca vous aide):
Contexte: on a des disques dans un SAN, donc quand on presente un LUN de 80GB et qu'on fait un expand dans la baie de disque, il faut ensuite instruire l'OS que ses disques sont plus gros.
Solaris 11 san expand zpool zfs : |
Marsh Posté le 24-01-2015 à 18:01:07
Bienvenue sur le Topic ZFS
Vous pouvez partager ici vos questions, idées et débats et plus si affinité...
(espace réservé pour mettre plein de choses utiles et interessantes ici )
Liens interessants pour faire connaissance avec ZFS:
et pour l'utilisateur avancé ou le développeur que veut comprendre le fonctionnement interne de ZFS:
astuces:
=> utilisez ce patch: https://github.com/Traviis/htop/com [...] 2bc615fdee
=> rajoutez l'option --enable-zfs-cache-awareness au "configure"
Message édité par sligor le 04-08-2015 à 13:59:41
---------------
qwerty-fr