Diagnostic et remplacement d'un disque dur défectueux (Serveur Dédié Linux avec Raid Hardware)
Veuillez utiliser la fonction « Imprimer » au bas de la page pour créer un PDF.
Dans cet article, nous vous montrons comment identifier un disque dur défectueux et comment préparer le serveur pour remplacer le disque défectueux.
Remarque
Cet article suppose une connaissance de base de l'administration des serveurs sous Linux. Si vous avez des questions ou si vous avez besoin d'aide concernant le remplacement d'un disque dur défectueux, veuillez contacter le Service Client IONOS.
Afin d'assurer la plus grande fiabilité possible, il est nécessaire que vous surveilliez le raid matériel de votre serveur dédié. Si vous découvrez qu'un disque dur est défectueux, ou si vous recevez un email de notification concernant un disque dur défectueux, vous devez contacter le service client pour le remplacer. Pour cela, il faut d'abord identifier le disque dur défectueux et préparer le serveur pour l'échange du support de données défectueux.
Veuillez noter
Les systèmes RAID permettent une plus grande fiabilité et/ou une plus grande vitesse. Cependant, ils ne remplacent pas les sauvegardes régulières. Pour éviter toute perte de données, nous vous recommandons de sauvegarder régulièrement vos données. Assurez-vous également de sauvegarder vos données avant d'effectuer les étapes suivantes pour assurer la sécurité de vos données.
Pour plus d'informations sur la création de sauvegardes, consultez les articles suivants :
Sauvegarder des données sur un serveur de sauvegardes (Linux)
Contrôleur RAID matériel : Informations générales
Un contrôleur RAID matériel est un contrôleur physique intégré au serveur en tant que composant matériel. Ce contrôleur possède son propre processeur pour le calcul des opérations RAID. Ce processeur organise et gère l'espace mémoire. Ainsi, le CPU du serveur n'est pas surchargé par les calculs RAID. Pour les contrôleurs RAID matériels, la fonctionnalité RAID est indépendante du système d'exploitation. Ils sont gérés par des programmes spéciaux (Command Line Interface), qui peuvent varier selon le fabricant et le modèle.
Diagnostic des erreurs du disque dur
Afin de détecter les erreurs du disque dur, nous vous recommandons d'utiliser le programme smartctl.
Smartctl est un programme en ligne de commande pour surveiller les volumes à l'aide de SMART (Self-Monitoring, Analysis and Reporting Technology). Avec ce programme, vous pouvez vérifier si un disque dur est défectueux. C'est une composante des Smartmontools. Les Smartmontools sont disponibles sous forme de paquets pour de nombreuses distributions Linux.
Remarque
Dans certains cas, il peut arriver qu'un défaut du disque dur ne puisse pas être détecté par les valeurs smart. Nous vous recommandons donc d'analyser également le fichier journal /var/log/messages.
Installer Smartctl
Pour installer Smartctl, tapez la commande suivante :
CentOS :
yum install smartmontools
Ubuntu :
sudo apt-get install smartmontools
Déterminer le type de contrôleur matériel
Pour vérifier quel contrôleur matériel est installé sur votre serveur, vous pouvez utiliser le programme lshw. Ce programme crée des informations détaillées sur les composants matériels.
Pour installer le programme, entrez la commande suivante :
CentOS :
um install lshw
Ubuntu :
sudo apt-get install lshw
Consulter les informations matérielles
Pour afficher un résumé des informations matérielles, tapez la commande suivante :
lshw –short
Pour éditer les informations matérielles sous forme de fichier texte, tapez la commande suivante :
lshw > lshw_ausgabe.txt
Dans l'exemple suivant, un contrôleur matériel PERC H330 est installé sur le serveur :
root@829F6DF:~# lshw -short
H/W path Device Class Description
==========================================================
system PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0 bus 0DWX9P
/0/0 memory 64KiB BIOS
/0/400 processor Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700 memory 256KiB L1 cache
/0/400/701 memory 1MiB L2 cache
/0/400/702 memory 8MiB L3 cache
/0/1000 memory 32GiB System Memory
/0/1000/0 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2 memory [empty]
/0/1000/3 memory [empty]
/0/100 bridge Intel Corporation
/0/100/1 bridge Skylake PCIe Controller (x16)
/0/100/1/0 scsi0 storage MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0 /dev/sda disk 799GB PERC H330 Adp
/0/100/1/0/2.0.0/1 /dev/sda1 volume 2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2 /dev/sda2 volume 27GiB EXT3 volume
/0/100/1/0/2.0.0/3 /dev/sda3 volume 9536MiB Linux swap volume
/0/100/1/0/2.0.0/4 /dev/sda4 volume 707GiB LVM Physical Volume
/0/100/1.1 bridge Skylake PCIe Controller (x8)
/0/100/14 bus Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0 usb1 bus xHCI Host Controller
/0/100/14/0/3 bus Gadget USB HUB
/0/100/14/1 usb2 bus xHCI Host Controller
/0/100/14.2 generic Sunrise Point-H Thermal subsystem
/0/100/16 communication Sunrise Point-H CSME HECI #1
/0/100/16.1 communication Sunrise Point-H CSME HECI #2
/0/100/17 storage Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d bridge Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0 eth0 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1 eth1 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2 bridge Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0 bridge SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0 display G200eR2
/0/100/1f bridge Sunrise Point-H LPC Controller
/0/100/1f.2 memory Memory controller
/0/100/1f.4 bus Sunrise Point-H SMBus
Consulter les informations sur le disque dur
Pour accéder aux informations du disque dur avec Smartctl, vous devez toujours spécifier la commande appropriée en combinaison avec une option et un périphérique cible. L'appareil cible dépend du fabricant du contrôleur.
Utilisez les commandes ci-dessous pour obtenir les informations nécessaires au diagnostic du disque dur :
Fabricant | Disque dur | commande |
---|---|---|
ARECA | 1 | smartctl -iHAl error /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl -iHAl error /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl -iHAl error /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl -iHAl error /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl -iHAl error /dev/sg2 -d sat |
Adaptec | 2 | smartctl -iHAl error /dev/sg3 -d sat |
Adaptec | (3) | smartctl -iHAl error /dev/sg4 -d sat |
Adaptec | (4) | smartctl -iHAl error /dev/sg5 -d sat |
Dell | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Vous trouverez des commandes supplémentaires pour les contrôleurs matériels pris en charge sur cette page.
Exemple :
[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1
smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Interprétation des paramètres
Analysez les informations détaillées que vous avez obtenues. La première section énumère les informations que vous pouvez utiliser pour identifier le disque dur. Dans cette section vous trouverez notamment le modèle de périphérique, le numéro de série et la taille du disque dur testé.
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Dans la deuxième section, l'état actuel du disque dur est évalué par Smartctl. Si, par exemple, la valeur Failed ou UNKNOWN s'affiche à la place de la valeur PASSED, vous devez remplacer le disque dur dès que possible.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Dans la troisième section, les VALEURS SMART déterminées sont énumérées en détail. A côté de chaque valeur actuelle en pourcentage (VALUE), la valeur la plus mauvaise jamais mesurée (WORST) et la valeur limite correspondante (THRESH) sont indiquées. Si la valeur actuelle en pourcentage (VALUE) ou la pire valeur mesurée (WORST) dépasse la valeur limite (THRESH), un avertissement SMART est affiché dans la colonne WHEN_FAILED (par ex. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
Les paramètres suivants peuvent indiquer une panne imminente du disque dur avant qu'un avertissement SMART ne s'affiche :
Reallocated_Sector_Ct : Spécifie le nombre de secteurs réassignés en raison d'erreurs de lecture. Si un secteur ne peut plus être lu, écrit ou vérifié correctement, un secteur de remplacement lui est automatiquement affecté. Le secteur défectueux est marqué en permanence comme illisible. Il s'agit d'un signe d'avertissement clair de problèmes naissants. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente. Cette valeur est l'indicateur le plus important pour un remplacement de disque dur.
Current_Pending_Sector_Ct : Spécifie le nombre de secteurs instables en attente de remappage. Si un secteur ne peut pas être lu et écrit correctement, il reçoit d'abord le statut Current Pending Sector. Le secteur n'est pas réassigné dans cet état, puisque les données du secteur sont inconnues. Ce n'est qu'après plusieurs tentatives de lecture ou d'écriture infructueuses qu'un secteur de remplacement est attribué et le secteur défectueux est marqué de façon permanente comme illisible. La valeur Current_Pending_Sector_Ct est un indicateur important pour un remplacement de disque dur. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente.
Offline_Uncorrectable : Spécifie le nombre d'erreurs d'écriture et de lecture non corrigeables.
La dernière section traite du journal interne du disque dur. Les erreurs sont enregistrées ici si les tâches du serveur n'ont pas été traitées correctement par le disque dur. Si le nombre d'erreurs dans cette section est d'au moins 10, vous devez remplacer le disque dur dès que possible.
SMART Error Log Version: 1
No Errors Logged
Consulter les fichiers journaux
Vous trouverez plus d'informations sur comment accéder aux fichiers journaux, dans la documentation du fabricant concerné :
Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software
3ware
http://www.3ware.com/support/userdocs.asp
Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf
Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation
Préparer le remplacement du disque dur
Consulter des informations détaillées pour le remplacement de disque
Les informations suivantes sont nécessaires pour remplacer le disque dur défectueux :
Nom du disque dur dans le RAID
Numéro de série
Modèle
Fichier journal (facultatif)
Créer un journal SMART
Utilisez les commandes listées ci-dessous pour générer un journal SMART complet :
Fabriquant | Disque dur | Commande |
---|---|---|
ARECA | 1 | smartctl –x /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl –x /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl –x /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl –x /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl –x /dev/sg2 -d sat |
Adaptec | 2 | smartctl –x /dev/sg3 -d sat |
Adaptec | (3) | smartctl –x /dev/sg4 -d sat |
Adaptec | (4) | smartctl –x /dev/sg5 -d sat |
Dell | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Remarques
Si le journal SMART a été créé comme décrit ci-dessus, c'est suffisant. Vous pouvez alors faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Si vous ne pouvez pas fournir le numéro de série du disque dur défectueux à l'aide de smartctl, vous pouvez également fournir au service client le numéro de série du ou des disque(s) dur(s) qui fonctionne(nt).
Si vous n'êtes pas en mesure de déterminer les informations requises pour le remplacement et que vous souhaitez remplacer le disque dur, le matériel doit être vérifié avant de le remplacer. Lors de cette vérification, le serveur est généralement temporairement indisponible. Si un défaut du disque dur est détecté pendant ce test, il est remplacé.
Demander le remplacement du disque dur
Vous pouvez désormais faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Étapes à suivre après le remplacement du disque dur
Une fois le disque dur défectueux remplacé, la reconstruction du système RAID commence généralement automatiquement. Veuillez vérifier si la reconstruction du système RAID a démarré et s'est bien déroulée.