storiq logo

La traînée de poudre

Le blog StorIQ

 

Jeudi, 28 janvier 2016

Stockage, Sauvegarde, Archivage


article paru dans le numéro 366 de “la revue des ingénieurs ESME SUDRIA”

Le stockage, la sauvegarde et l’archivage peuvent recourir à tous types de supports: disques durs, bandes, disques optiques, mémoires flash, mais c’est bien l’approche applicative qui définit s’il s’agit de stockage, de sauvegarde ou d’archivage.


Les techniques de protection des données et leurs usages

Il est souvent délicat pour le néophyte de distinguer les domaines d’applications des différentes techniques de stockage et de protection des données, aussi bien les technologies matérielles que logicielles, ou leur mise en oeuvre en un workflow cohérent.

Les architectures des systèmes de stockage tournent autour de trois concepts:

  • les supports : disques durs (intégré au lecteur), bandes magnétiques, disques optiques, mémoires flash.

  • les lecteurs : disques durs, lecteurs de bandes, lecteurs optiques, “disques” SSD. Non détaillés dans cet article.

  • les sous-systèmes matériels : systèmes RAID, bibliothèque de bande, bibliothèque de disques optiques, stockage objet dit cloud.


Les supports de stockage

Disques durs

Le disque dur est sans doute le composant de stockage le plus connu. Il s’agit d’un système d’enregistrement magnétique sur des plateaux (généralement d’aluminium) tournants et accédés par des têtes de lecture/écriture positionnées par un bras oscillant. Contrairement à une légende tenace, les disques durs ne sont jamais sous vide; au contraire, une pression interne minimale est nécessaire à leur bon fonctionnement, la tête de lecture utilisant l’effet venturi afin de conserver une distance optimale à la surface du plateau.

Il existe maintenant des disques durs de 6 et 8 To emplis d’hélium plutôt que d’air. La fluidité de l’hélium réduit les frottements et permet une baisse de la consommation d’énergie d’environ 40%.

Il existe également des disques utilisant la technologie SMR (Shingled Magnetic Recording) dans la quelle les pistes successives se recouvrent légèrement, ce qui permet d’augmenter la capacité (jusqu’à 10 To); par contre il est très difficile de modifier une donnée déjà enregistrée, ces disques sont donc destinés à des applications particulières (stockage à long terme, archivage).

Mémoire flash

La mémoire flash est sans doute le système de stockage de données le plus répandu aujourd’hui, puisqu’il est présent dans les centaines de millions de téléphones mobiles et de plus en plus d’ordinateurs portables. La mémoire flash ne présentant pas de parties mobiles contrairement aux disques durs, elle est insensible aux chocs, tout en présentant d’excellentes performances. Ses principaux inconvénients sont son rapport capacité/prix défavorable, et sa résistance à l’usure (on ne peut récrire une “cellule” qu’un nombre limité de fois).

La mémoire flash est donc rarement utilisée dans des systèmes de stockage massif, sinon comme cache rapide pour un ensemble basé sur des disques magnétiques.

Bandes magnétiques

Et oui, la bande magnétique résiste encore et toujours. Les grands constructeurs IBM, HP et Quantum ont défini à la fin des années 90 un standard commun dit LTO (Linear Tape Open) qui aujourd’hui à la 6e génération (2,5 To natifs par cartouche), est le format de très loin le plus répandu. La bande magnétique présente des caractéristiques intéressantes: le support est peu cher comparé aux disques magnétiques, il est conçu pour se conserver très longtemps (les supports LTO sont garantis 10 ans sous certaines conditions) et il consomme peu d’énergie. Si le LTO présente une performance intéressante (environ 150 Mo/s pour le LTO 6), bien entendu le principal inconvénient reste l’accès séquentiel aux données enregistrées qui peut entraîner des temps d’accès très élevés (plusieurs dizaines de secondes).

disques optiques

Les disques optiques sont aujourd’hui en perte de vitesse du fait de leur faible capacité et leur faible vitesse. Sony cependant propose actuellement un format ODA (Optical Disc Archive) qui présente des capacités jusqu’à 1 To par cartouche. Le principal attrait du disque optique réside dans sa longévité: l’ODA est donné pour pouvant se conserver 50 ans. La vitesse de lecture et d’écriture, par contre, reste limitée, aux environs de 40 à 50 Mo/s.

Pour plus de considérations sur les supports de stockage, et en particulier des détails techniques sur les disques magnétiques et SSD, voir http://fr.slideshare.net/eflorac/prsentation-stockage


Sous-systèmes

Système RAID

un assemblage RAID (Redundant Array of Inexpensive Drives) est un assemblage logique de disques durs ou de SSD résistant à la panne. Le fait de regrouper logiquement un ensemble d’éléments augmente bien entendu la probabilité de panne, pour s’en protéger le système RAID soit duplique les données (RAID 1, RAID 10) soit calcule des données de parité permettant de reconstituer une donnée qui viendrait à manquer (RAID 5,6) à partir des données restantes.

Les modes de RAID les plus couramment utilisés sont le RAID 1 ou 10 (miroir) et le RAID 6. Il convient de considérer le RAID 5 comme obsolète pour les capacités des disques durs actuels. Voir http://blogs.intellique.com/tech/2012/10/31#Raid5-est-mort

L’utilisation du RAID présente donc les avantages suivants: - augmentation de la capacité : il n’existe pas de disques durs de 24 To, mais le RAID permet d’assembler par exemple 8 disques de 4 To et de les présenter comme un seul volume de 24 To utiles. - augmentation de la performance : l’assemblage de 8 x 4 To donné en exemple sera environ 6 fois plus performant qu’un seul disque de 4 To. - continuité de service : en cas de défaillance d’un disque, le remplacement de celui-ci se fait sans interruption.

L’utilisation du RAID ne protège pas contre la malveillance, les erreurs humaines, ou les incidents de plus grande ampleur; s’il y a un incendie dans la salle serveur, ou une inondation, le RAID ne permettra ni de garantir la continuité de service, ni la reprise d’activité. L’utilisation du RAID ne constitue donc pas une stratégie de sauvegarde, ni d’archivage.

Pour plus de détails sur les différents modes de RAID, voir http://fr.slideshare.net/eflorac/prsentation-du-stockage-raid

Bibliothèque de bandes ou disques optiques

Une bibliothèque de bande ou de supports optiques est un système contenant un certain nombre de supports (allant de 8 à plusieurs milliers), un certains nombre de lecteurs pour ces supports et un bras robotisé permettant de charger et décharger les supports dans les lecteurs à la demande.

Les bibliothèques de ce type présentent l’avantage de contenir une masse de données très importantes accessible de manière entièrement automatisée. De plus, ces systèmes consomment très peu d’énergie.

L’inconvénient principal réside dans le temps d’accès important (typiquement quelques minutes) et l’adressage indirect, qui implique en général une couche logicielle de gestion sophistiquée.

stockage objet dit Cloud

La volumétrie des données croissant sans cesse et leur mode d’utilisation évoluant, de nouvelles approches sont apparues pour la gestion de stockage extrêmement massif. Les systèmes de type “stockage objet” tel que Ceph, Gluster, Scality… visent à assurer la disponibilité des données par la réplication, en suivant un mode de découpage et de répartition des données qui permet de supporter non seulement la panne d’un composant (tel un disque dur) mais aussi d’un sous-système arbitrairement grand (un serveur de stockage, une baie de serveurs, voire un centre de données). L’avantage principal de ces systèmes est de permettre d’accroître l’espace de stockage par ajout de nouveaux sous-systèmes, et de réformer les éléments obsolètes simplement, sans jamais nécessiter de migration globale des données.

Ces nouveaux systèmes ne sont intéressants en terme d’investissement qu’au delà de 1 Po de données, mais ils se démocratisent rapidement.


Applications logicielles

Différentes catégories d’applications de gestion du stockage

virtualisation de stockage

Les applications de virtualisation de stockage permettent de présenter aux utilisateurs ou aux applications des volumes de stockage virtuels décorrélés de l’organisation physique des systèmes de stockage. Elles permettent également fréquemment de déplacer les données utilisées le plus fréquemment vers les systèmes de stockage les plus performants, et les données peu utilisées vers des systèmes moins coûteux voire “dormants” (sur bande). Historiquement les premiers systèmes de ce type ont été les HSM (Hierarchical Storage Manager) qui permettent d’utiliser une bibliothèque de bande comme extension transparente d’un système de stockage sur disque: les fichiers peu utilisés sont stockés sur bande, et chargés à la demande, le début du fichier étant conservé sur disque.

clichés

Les clichés (ou snapshots) sont un mécanisme généralement intégré aux systèmes de fichiers (Oracle ZFS, NetApp WAFL…) ou aux gestionnaires de volume (Symantec VxVM, Linux LVM…). Ce mécanisme permet de “figer” l’état du volume ou du système de fichier à un instant donné. Ainsi, les fichiers effacés après la prise du “cliché” restent présents dans celui-ci. Ce système est fréquemment employé comme premier niveau de sauvegarde de données.

gestionnaire de versions

Les gestionnaires de version sont une gamme d’outils permettant de conserver les versions successives d’un ensemble de fichiers après chaque modification. Généralement l’enregistrement est explicite via une commande dite de commit ou check-in.La plupart des gestionnaires de versions sont utilisés dans un environnement de développement logiciel coopératif, afin de permettre aux différents développeurs de partager leurs modifications successives de code.

  • Les systèmes historiques : RCS, CVS
  • Les systèmes propriétaires: Perforce, Microsoft SourceSafe
  • Le système libre dominant jusqu’à récemment: Subversion (svn)
  • Les systèmes distribués: git (Linux), Mercurial, Bazaar.

Sauvegarde

La sauvegarde vise à protéger les données de deux aspects non couverts par la simple redondance matérielle, à savoir les erreurs humaines (“oups, je n’aurai pas du faire ça”) et les accidents de plus grande ampleur comme les incendies, inondations, etc. afin de maintenir idéalement la continuité de service, ou à défaut une reprise d’activité aussi rapide que possible.

Pourquoi sauvegarder? Parce que les données sont absolument critiques dans toute entreprise! Une étude Infocorp de 2002 indique que 30% des entreprises subissant une perte de données faisaient faillite.

Une bonne sauvegarde trouve la péréquation entre coût et risque afin de se protéger suffisamment. Elle suppose en général 1° une copie complète des données faite aussi souvent que possible 2° un historique suffisant pour pouvoir revenir en arrière en cas de problème non immédiatemment détecté 3° au moins une copie distante, en cas de problème grave sur le site de production.

Les applications et systèmes de sauvegarde sont innombrables, aussi bien sous forme de matériel, de logiciel que de services “cloud”. Quoi qu’il en soit:faites des sauvegardes!

Archivage

Distinction entre la sauvegarde et l’archivage

La sauvegarde est destinée à protéger les données indispensables à la production; elle sécurise les données selon différentes stratégies mais ne prétend pas garantire la disponibilité à long terme des données, typiquement au delà d’un an. L’archivage propose au contraire de garantir la disponibilité des données sur le long terme.

On distingue deux approches: l’archivage patrimonial visant à conserver l’information sur une durée illimitée ( Ce qui implique non seulement de protéger la donnée, mais également les éléments nécessaires à son exploitation ou son interprétation, y compris parfois les éléments matériels ). L’archivage à valeur probante destiné à garantir l’intégrité et l’authenticité des données, généralement sur une durée définie de façon réglementaire et rarement supérieure à 10 ans (factures, contrats, etc). C’est ce que recouvrent les solutions dites “coffre-fort électronique”.

posté à: 18:09 permalink