Diagnostic et remplacement d'un disque dur défectueux (Serveur Dédié Windows avec Raid Hardware)
Veuillez utiliser la fonction « Imprimer » au bas de la page pour créer un PDF.
Dans cet article, nous vous montrons comment identifier un disque dur défectueux et comment préparer le serveur pour remplacer le disque défectueux.
Remarque
Cet article suppose une connaissance de base de l'administration du serveur avec Microsoft Windows. Si vous avez des questions ou avez besoin d'aide concernant le remplacement d'un disque dur défectueux, veuillez contacter le service client.
Afin d'assurer la plus grande fiabilité possible, il est nécessaire que vous surveilliez le raid matériel de votre serveur dédié. Si vous découvrez qu'un disque dur est défectueux, ou si vous recevez un email de notification concernant un disque dur défectueux, vous devez contacter le service client pour le remplacer. Pour cela, il faut d'abord identifier le disque dur défectueux et préparer le serveur pour l'échange du support de données défectueux.
Veuillez noter
Les systèmes RAID permettent une plus grande fiabilité et/ou une plus grande vitesse. Cependant, ils ne remplacent pas les sauvegardes régulières. Pour éviter toute perte de données, nous vous recommandons de sauvegarder régulièrement vos données. Assurez-vous également de sauvegarder vos données avant d'effectuer les étapes suivantes pour assurer la sécurité de vos données.
Pour plus d'informations sur la création de sauvegardes, consultez cet article :
Contrôleur RAID matériel : Informations générales
Un contrôleur RAID matériel est un contrôleur physique intégré au serveur en tant que composant matériel. Ce contrôleur possède son propre processeur pour le calcul des opérations RAID. Ce processeur organise et gère l'espace mémoire. Ainsi, le CPU du serveur n'est pas surchargé par les calculs RAID. Pour les contrôleurs RAID matériels, la fonctionnalité RAID est indépendante du système d'exploitation. Ils sont gérés par des programmes spéciaux (Command Line Interface), qui peuvent varier selon le fabricant et le modèle.
Diagnostic des erreurs du disque dur
Afin de détecter les erreurs du disque dur, nous vous recommandons d'utiliser le programme smartctl.
Smartctl est un programme en ligne de commande pour surveiller les volumes à l'aide de SMART (Self-Monitoring, Analysis and Reporting Technology). Avec ce programme, vous pouvez vérifier si un disque dur est défectueux. C'est une composante des Smartmontools.
Une liste des contrôleurs matériels supportés peut être trouvée ici :
https://www.smartmontools.org/wiki/Supported_RAID-Controlleurs
Installer Smartctl
Vous pouvez télécharger les Smartmontools via la page suivante :
https://www.smartmontools.org/wiki/Download#InstalltheWindowspackage
Identifier les contrôleurs RAID matériels
Voici comment vérifier quel contrôleur RAID matériel est intégré à votre serveur :
Ouvrez le Panneau de configuration.
Cliquez sur Matériel et audio > Périphériques et imprimantes > Gestionnaire de périphériques.
Dans la section Contrôleur de stockage, vérifiez quel contrôleur est installé sur le serveur.
Vérifier l'état du raid matériel
Vous trouverez des informations sur comment vérifier l'état du raid matériel ici :
Surveiller / Reconstruire RAID matériel (Windows)
Si un disque est manquant dans le tableau Raid, il peut être défectueux . Un RAID défectueux pourrait ressembler à ceci :
CLI> rsf info
# Name Disks TotalCap FreeCap DiskChannels State
===============================================================================
1 Raid Set # 00 3 2250.5GB 0.0GB 1x3 Degrade
2 Raid Set # 00 3 2250.5GB 2250.5GB x2x Incompleted
===============================================================================
GuiErrMsg<0x00>: Success.
Dans l'exemple ci-dessus, le disque 2 a le statut incompleted. Ceci indique un défaut.
Afficher des informations sur le disque dur
Smartctl se comporte de la même manière sous Windows et sous Linux. Pour cette raison, vous pouvez utiliser les mêmes commandes. Pour utiliser Smartctl pour le dépannage, vous devez ouvrir l'invite de commande et passer dans le répertoire où se trouvent les Smartmontools.
Pour utiliser Smartctl pour accéder aux informations du disque dur, vous devez toujours spécifier la commande appropriée en combinaison avec une option et un périphérique cible. L'appareil cible dépend du fabricant du contrôleur.
Utilisez les commandes ci-dessous pour consulter les informations nécessaires au diagnostic du disque dur :
Fabriquant | Disque dur | Commande |
---|---|---|
ARECA | 1 | smartctl -iHAl error /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl -iHAl error /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl -iHAl error /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl -iHAl error /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl -iHAl error /dev/sg2 -d sat |
Adaptec | 2 | smartctl -iHAl error /dev/sg3 -d sat |
Adaptec | (3) | smartctl -iHAl error /dev/sg4 -d sat |
Adaptec | (4) | smartctl -iHAl error /dev/sg5 -d sat |
Dell | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Vous trouverez des commandes supplémentaires pour les contrôleurs matériels pris en charge sur cette page.
Exemple :
[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1
smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Interprétation des paramètres
La première section énumère les informations que vous pouvez utiliser pour identifier le disque dur. Dans cette section vous trouverez notamment le modèle de périphérique, le numéro de série et la taille du disque dur testé :
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Dans la deuxième section, l'état actuel du disque dur est évalué par Smartctl. Si, par exemple, la valeur Failed ou UNKNOWN s'affiche à la place de la valeur PASSED, vous devez remplacer le disque dur dès que possible.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Dans la troisième section, les VALEURS SMART déterminées sont énumérées en détail. A côté de chaque valeur actuelle en pourcentage (VALUE), la valeur la plus mauvaise jamais mesurée (WORST) et la valeur limite correspondante (THRESH) sont indiquées. Si la valeur actuelle en pourcentage (VALUE) ou la pire valeur mesurée (WORST) dépasse la valeur limite (THRESH), un avertissement SMART est affiché dans la colonne WHEN_FAILED (par ex. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
Les paramètres suivants peuvent indiquer une panne imminente du disque dur avant qu'un avertissement SMART ne s'affiche :
Reallocated_Sector_Ct : Spécifie le nombre de secteurs réassignés en raison d'erreurs de lecture. Si un secteur ne peut plus être lu, écrit ou vérifié correctement, un secteur de remplacement lui est automatiquement affecté. Le secteur défectueux est marqué en permanence comme illisible. Il s'agit d'un signe d'avertissement clair de problèmes naissants. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente. Cette valeur est l'indicateur le plus important pour un remplacement de disque dur.
Current_Pending_Sector_Ct : Spécifie le nombre de secteurs instables en attente de remappage. Si un secteur ne peut pas être lu et écrit correctement, il reçoit d'abord le statut Current Pending Sector. Le secteur n'est pas réassigné dans cet état, puisque les données du secteur sont inconnues. Ce n'est qu'après plusieurs tentatives de lecture ou d'écriture infructueuses qu'un secteur de remplacement est attribué et le secteur défectueux est marqué de façon permanente comme illisible. La valeur Current_Pending_Sector_Ct est un indicateur important pour un remplacement de disque dur. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente.
Offline_Uncorrectable : Spécifie le nombre d'erreurs d'écriture et de lecture non corrigeables.
La dernière section traite du journal interne du disque dur. Les erreurs sont enregistrées ici si les tâches du serveur n'ont pas été traitées correctement par le disque dur. Si le nombre d'erreurs dans cette section est d'au moins 10, vous devez remplacer le disque dur dès que possible.
SMART Error Log Version: 1
No Errors Logged
Consulter les fichiers journaux
Pour plus d'informations sur l'appel des fichiers journaux, reportez-vous à la documentation du fabricant concerné.
Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software
3ware
http://www.3ware.com/support/userdocs.asp
Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf
Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation
Préparer le remplacement du disque dur
Consulter des informations détaillées pour le remplacement de disque
Les informations suivantes sont nécessaires pour remplacer le disque dur défectueux :
Nom du disque dur dans le RAID
Numéro de série
Modèle
Fichier journal (facultatif)
Créer un journal SMART
Utilisez les commandes listées ci-dessous pour générer un journal SMART complet :
Fabriquant | Disque dur | Commande |
---|---|---|
ARECA | 1 | smartctl –x /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl –x /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl –x /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl –x /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl –x /dev/sg2 -d sat |
Adaptec | 2 | smartctl –x /dev/sg3 -d sat |
Adaptec | (3) | smartctl –x /dev/sg4 -d sat |
Adaptec | (4) | smartctl –x /dev/sg5 -d sat |
Dell | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Remarques
Si le journal SMART a été créé comme décrit ci-dessus, c'est suffisant. Vous pouvez alors faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Si vous ne pouvez pas fournir le numéro de série du disque dur défectueux à l'aide de smartctl, vous pouvez également fournir au service client le numéro de série du ou des disque(s) dur(s) qui fonctionne(nt).
Si vous n'êtes pas en mesure de déterminer les informations requises pour le remplacement et que vous souhaitez remplacer le disque dur, le matériel doit être vérifié avant de le remplacer. Lors de cette vérification, le serveur est généralement temporairement indisponible. Si un défaut du disque dur est détecté pendant ce test, il est remplacé.
Demander le remplacement du disque dur
Vous pouvez désormais faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Étapes à suivre après le remplacement du disque dur
Une fois le disque dur défectueux remplacé, la reconstruction du système RAID commence généralement automatiquement. Veuillez vérifier si la reconstruction du système RAID a démarré et s'est bien déroulée.
Contenu
- Contrôleur RAID matériel : Informations générales
- Diagnostic des erreurs du disque dur
- Afficher des informations sur le disque dur
- Interprétation des paramètres
- Consulter les fichiers journaux
- Préparer le remplacement du disque dur
- Demander le remplacement du disque dur
- Étapes à suivre après le remplacement du disque dur
- Haut de page