
Mercredi, 31 octobre 2012
Rappel : la mort du RAID-5
Il est arrivé encore récemment qu’on me parle du RAID-5 comme si c’était toujours une technologie d’actualité. Du coup, je me sens obligé de faire un petit rappel à caractère sanitaire : le RAID-5 est mort depuis déjà quelques années, et n’est généralement pas le bon choix pour protéger ses données.
L’évolution de la capacité des disques durs est le principal facteur: la capacité des disques double globalement tous les 18 à 24 mois, alors que la vitesse augmente de quelques pourcents sur la même période. Résultat: le remplissage d’un disque dur prend de plus en plus de temps.
Premier problème: lorsqu’un disque tombe en panne, la grappe RAID reste non protégée de plus en plus longtemps, à savoir le temps nécessaire pour emplir un disque entier:
- en 1988, un disque de 40 Mo se remplissait en 2 à 3 minutes
- en 1998, un disque de 9 Go se remplissait en 15 à 20 minutes
- en 2008, un disque de 1 To se remplissait en 3 à 4 heures
- en 2010, un disque de 2 To se remplit en 5 à 6 heures
- En 2012, un disque de 4 To se remplit en 12 à 14 heures
Il s’agit là d’une performance maximale; il est normal que la performance réelle constatée soit beaucoup plus basse, surtout lorsque la grappe RAID est sollicitée pendant la reconstruction; il n’est pas anormal qu’une reconstruction se prolonge un ou deux jours, voire plus. Déjà, il faut avoir les nerfs solides, mais ce n’est pas le pire…
Ensuite les statistiques jouent contre nous : les disques durs courants présentent un taux d’erreur non correctible d’environ 1 bit pour 1E14 (mesuré par nous) à 1E15 (donné par les constructeurs). Ça paraît au premier abord beaucoup, mais en fait ça n’est pas tant que ça si on se rappelle que les disques durs actuels sont vraiment énormes et contiennent jusqu’à 3,2E13 bits (disque de 4 To). De plus, quand on additionne les disques dans une grappe RAID, on additionne les capacités mais aussi les erreurs.
Une grappe de 10 disques de 4 To contient environ 3,2E14 bits. Lors de la reconstruction d’un disque, on rencontrera (si le taux d’erreur réel est de 1 sur 1E14) 3,2 erreurs de façon statistiquement certaine. Alors bien sûr, 3 erreurs de 1 bit ce n’est pas grand chose (même si c’est déjà une corruption, donc une perte de donnée) mais n’oubliez pas que vous avez aussi 10% de chances de rencontrer 32 erreurs, et 1 pour cent de chance d’en rencontrer 320!
À partir de quel moment le niveau de corruption devient-il inacceptable? À partir de quel moment l’intégrité du système de fichier dans son ensemble est-elle en jeu? Voulez vous essayer? Êtes-vous prêt à risquer 20, 30 To de données?
Voilà pourquoi depuis que les disques de 1 To et plus se sont généralisés, on considère que le RAID-5 présente un risque inacceptable. Le RAID-6 (avec deux parités) constitue la seule manière raisonnable d’agréger des disques de forte capacité.
Les seuls cas où le RAID-5 doit être envisagé sont pour des disques de petite capacité comme les disques SAS de 300 Go, ou pour des disques présentant à la fois une capacité limitée et un taux d’erreur réduit en lecture, les SSD.
Et si on vous propose de stocker vos données sur des grappes de disques SATA 2, 3 ou 4 To en RAID-5, soyez raisonnable: fuyez!
posté à: 16:24 permalink