Diagnostic et remplacement d'un disque dur défectueux (Serveur Dédié Linux avec Raid Hardware)

Dans cet article, nous vous montrons comment identifier un disque dur défectueux et comment préparer le serveur pour remplacer le disque défectueux.

Remarque

Cet article suppose une connaissance de base de l'administration des serveurs sous Linux. Si vous avez des questions ou si vous avez besoin d'aide concernant le remplacement d'un disque dur défectueux, veuillez contacter le Service Client IONOS.

Afin d'assurer la plus grande fiabilité possible, il est nécessaire que vous surveilliez le raid matériel de votre serveur dédié. Si vous découvrez qu'un disque dur est défectueux, ou si vous recevez un email de notification concernant un disque dur défectueux, vous devez contacter le service client pour le remplacer. Pour cela, il faut d'abord identifier le disque dur défectueux et préparer le serveur pour l'échange du support de données défectueux.

Veuillez noter

Les systèmes RAID permettent une plus grande fiabilité et/ou une plus grande vitesse. Cependant, ils ne remplacent pas les sauvegardes régulières. Pour éviter toute perte de données, nous vous recommandons de sauvegarder régulièrement vos données. Assurez-vous également de sauvegarder vos données avant d'effectuer les étapes suivantes pour assurer la sécurité de vos données.

Pour plus d'informations sur la création de sauvegardes, consultez les articles suivants :

Solutions de sauvegarde

Sauvegarder des données sur un serveur de sauvegardes (Linux)

Contrôleur RAID matériel : Informations générales

Un contrôleur RAID matériel est un contrôleur physique intégré au serveur en tant que composant matériel. Ce contrôleur possède son propre processeur pour le calcul des opérations RAID. Ce processeur organise et gère l'espace mémoire. Ainsi, le CPU du serveur n'est pas surchargé par les calculs RAID. Pour les contrôleurs RAID matériels, la fonctionnalité RAID est indépendante du système d'exploitation. Ils sont gérés par des programmes spéciaux (Command Line Interface), qui peuvent varier selon le fabricant et le modèle.

Diagnostic des erreurs du disque dur

Afin de détecter les erreurs du disque dur, nous vous recommandons d'utiliser le programme smartctl.

Smartctl est un programme en ligne de commande pour surveiller les volumes à l'aide de SMART (Self-Monitoring, Analysis and Reporting Technology). Avec ce programme, vous pouvez vérifier si un disque dur est défectueux. C'est une composante des Smartmontools. Les Smartmontools sont disponibles sous forme de paquets pour de nombreuses distributions Linux.

Remarque

Dans certains cas, il peut arriver qu'un défaut du disque dur ne puisse pas être détecté par les valeurs smart. Nous vous recommandons donc d'analyser également le fichier journal /var/log/messages.

Installer Smartctl

Pour installer Smartctl, tapez la commande suivante :

CentOS :

yum install smartmontools

Ubuntu :

sudo apt-get install smartmontools

Déterminer le type de contrôleur matériel

Pour vérifier quel contrôleur matériel est installé sur votre serveur, vous pouvez utiliser le programme lshw. Ce programme crée des informations détaillées sur les composants matériels.

Pour installer le programme, entrez la commande suivante :

CentOS :

um install lshw

Ubuntu :

sudo apt-get install lshw

Consulter les informations matérielles

Pour afficher un résumé des informations matérielles, tapez la commande suivante :

lshw –short

Pour éditer les informations matérielles sous forme de fichier texte, tapez la commande suivante :

lshw > lshw_ausgabe.txt

Dans l'exemple suivant, un contrôleur matériel PERC H330 est installé sur le serveur :

root@829F6DF:~# lshw -short
H/W path             Device     Class          Description
==========================================================
                                system         PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0                              bus            0DWX9P
/0/0                            memory         64KiB BIOS
/0/400                          processor      Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700                      memory         256KiB L1 cache
/0/400/701                      memory         1MiB L2 cache
/0/400/702                      memory         8MiB L3 cache
/0/1000                         memory         32GiB System Memory
/0/1000/0                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2                       memory         [empty]
/0/1000/3                       memory         [empty]
/0/100                          bridge         Intel Corporation
/0/100/1                        bridge         Skylake PCIe Controller (x16)
/0/100/1/0           scsi0      storage        MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0     /dev/sda   disk           799GB PERC H330 Adp
/0/100/1/0/2.0.0/1   /dev/sda1  volume         2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2   /dev/sda2  volume         27GiB EXT3 volume
/0/100/1/0/2.0.0/3   /dev/sda3  volume         9536MiB Linux swap volume
/0/100/1/0/2.0.0/4   /dev/sda4  volume         707GiB LVM Physical Volume
/0/100/1.1                      bridge         Skylake PCIe Controller (x8)
/0/100/14                       bus            Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0          usb1       bus            xHCI Host Controller
/0/100/14/0/3                   bus            Gadget USB HUB
/0/100/14/1          usb2       bus            xHCI Host Controller
/0/100/14.2                     generic        Sunrise Point-H Thermal subsystem
/0/100/16                       communication  Sunrise Point-H CSME HECI #1
/0/100/16.1                     communication  Sunrise Point-H CSME HECI #2
/0/100/17                       storage        Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d                       bridge         Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0          eth0       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1        eth1       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2                     bridge         Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0                   bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0                 bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0               bridge         SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0             display        G200eR2
/0/100/1f                       bridge         Sunrise Point-H LPC Controller
/0/100/1f.2                     memory         Memory controller
/0/100/1f.4                     bus            Sunrise Point-H SMBus

Consulter les informations sur le disque dur

Pour accéder aux informations du disque dur avec Smartctl, vous devez toujours spécifier la commande appropriée en combinaison avec une option et un périphérique cible. L'appareil cible dépend du fabricant du contrôleur.

Utilisez les commandes ci-dessous pour obtenir les informations nécessaires au diagnostic du disque dur :

Fabricant	Disque dur	commande
ARECA	1	smartctl -iHAl error /dev/sg1 -d areca,1
ARECA	2	smartctl -iHAl error /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -iHAl error /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -iHAl error /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -iHAl error /dev/sg2 -d sat
Adaptec	2	smartctl -iHAl error /dev/sg3 -d sat
Adaptec	(3)	smartctl -iHAl error /dev/sg4 -d sat
Adaptec	(4)	smartctl -iHAl error /dev/sg5 -d sat
Dell	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Dell	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda

Vous trouverez des commandes supplémentaires pour les contrôleurs matériels pris en charge sur cette page.

Exemple :

[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

Interprétation des paramètres

Analysez les informations détaillées que vous avez obtenues. La première section énumère les informations que vous pouvez utiliser pour identifier le disque dur. Dans cette section vous trouverez notamment le modèle de périphérique, le numéro de série et la taille du disque dur testé.

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Dans la deuxième section, l'état actuel du disque dur est évalué par Smartctl. Si, par exemple, la valeur Failed ou UNKNOWN s'affiche à la place de la valeur PASSED, vous devez remplacer le disque dur dès que possible.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Dans la troisième section, les VALEURS SMART déterminées sont énumérées en détail. A côté de chaque valeur actuelle en pourcentage (VALUE), la valeur la plus mauvaise jamais mesurée (WORST) et la valeur limite correspondante (THRESH) sont indiquées. Si la valeur actuelle en pourcentage (VALUE) ou la pire valeur mesurée (WORST) dépasse la valeur limite (THRESH), un avertissement SMART est affiché dans la colonne WHEN_FAILED (par ex. FAILING_NOW).

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

Les paramètres suivants peuvent indiquer une panne imminente du disque dur avant qu'un avertissement SMART ne s'affiche :

Reallocated_Sector_Ct : Spécifie le nombre de secteurs réassignés en raison d'erreurs de lecture. Si un secteur ne peut plus être lu, écrit ou vérifié correctement, un secteur de remplacement lui est automatiquement affecté. Le secteur défectueux est marqué en permanence comme illisible. Il s'agit d'un signe d'avertissement clair de problèmes naissants. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente. Cette valeur est l'indicateur le plus important pour un remplacement de disque dur.

Current_Pending_Sector_Ct : Spécifie le nombre de secteurs instables en attente de remappage. Si un secteur ne peut pas être lu et écrit correctement, il reçoit d'abord le statut Current Pending Sector. Le secteur n'est pas réassigné dans cet état, puisque les données du secteur sont inconnues. Ce n'est qu'après plusieurs tentatives de lecture ou d'écriture infructueuses qu'un secteur de remplacement est attribué et le secteur défectueux est marqué de façon permanente comme illisible. La valeur Current_Pending_Sector_Ct est un indicateur important pour un remplacement de disque dur. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente.

Offline_Uncorrectable : Spécifie le nombre d'erreurs d'écriture et de lecture non corrigeables.

La dernière section traite du journal interne du disque dur. Les erreurs sont enregistrées ici si les tâches du serveur n'ont pas été traitées correctement par le disque dur. Si le nombre d'erreurs dans cette section est d'au moins 10, vous devez remplacer le disque dur dès que possible.

SMART Error Log Version: 1
No Errors Logged

Consulter les fichiers journaux

Vous trouverez plus d'informations sur comment accéder aux fichiers journaux, dans la documentation du fabricant concerné :

Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

3ware
http://www.3ware.com/support/userdocs.asp

Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf

Dell
https://www.dell.com/support/home/fr/fr/frdhs1/product-support/product/poweredge-rc-h330/manuals?lwp=rt

Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

Préparer le remplacement du disque dur

Consulter des informations détaillées pour le remplacement de disque

Les informations suivantes sont nécessaires pour remplacer le disque dur défectueux :

Nom du disque dur dans le RAID
Numéro de série
Modèle
Fichier journal (facultatif)

Créer un journal SMART

Utilisez les commandes listées ci-dessous pour générer un journal SMART complet :

Fabriquant	Disque dur	Commande
ARECA	1	smartctl –x /dev/sg1 -d areca,1
ARECA	2	smartctl –x /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl –x /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl –x /dev/twe0 -d 3ware,1
Adaptec	1	smartctl –x /dev/sg2 -d sat
Adaptec	2	smartctl –x /dev/sg3 -d sat
Adaptec	(3)	smartctl –x /dev/sg4 -d sat
Adaptec	(4)	smartctl –x /dev/sg5 -d sat
Dell	1	smartctl –x -d sat+megaraid,0 /dev/sda
Dell	2	smartctl –x -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl –x -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl –x -d sat+megaraid,1 /dev/sda

Remarques

Si le journal SMART a été créé comme décrit ci-dessus, c'est suffisant. Vous pouvez alors faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Si vous ne pouvez pas fournir le numéro de série du disque dur défectueux à l'aide de smartctl, vous pouvez également fournir au service client le numéro de série du ou des disque(s) dur(s) qui fonctionne(nt).
Si vous n'êtes pas en mesure de déterminer les informations requises pour le remplacement et que vous souhaitez remplacer le disque dur, le matériel doit être vérifié avant de le remplacer. Lors de cette vérification, le serveur est généralement temporairement indisponible. Si un défaut du disque dur est détecté pendant ce test, il est remplacé.

Demander le remplacement du disque dur

Vous pouvez désormais faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.

Étapes à suivre après le remplacement du disque dur

Une fois le disque dur défectueux remplacé, la reconstruction du système RAID commence généralement automatiquement. Veuillez vérifier si la reconstruction du système RAID a démarré et s'est bien déroulée.

Contenu

Contrôleur RAID matériel : Informations générales
Diagnostic des erreurs du disque dur
Interprétation des paramètres
Consulter les fichiers journaux
Préparer le remplacement du disque dur
Demander le remplacement du disque dur
Étapes à suivre après le remplacement du disque dur
Haut de page