Dark Data
À l’ère de l’information, les entreprises collectent continuellement des masses de données. Mais dans la plupart des cas, les données collectées sont stockées sans être analysées. Ces données, qui existent mais ne sont pas utilisées, sont appelées « Dark Data ».
- vCPU aux coûts avantageux et cœurs dédiés performants
- Sans engagement pour plus de flexibilité
- Assistance par des experts 24h/24 et 7j/7 incluse
Qu’est-ce que le Dark Data ?
Les Dark Data (« données sombres » en français) sont des données qui ne peuvent être vues ou consultées par une entreprise. Il peut s’agir de données incomplètes, qui n’ont pas été évaluées, qui existent en secret ou qui n’ont pas (encore) été collectées. Pour bien comprendre ce terme, il faut savoir qu’il est relatif. Le fait que des données soient « sombres » ou non dépend de la relation entre ces données et une entreprise particulière.
Les Dark Data sont particulièrement flagrantes dans le contexte de la gestion du Big Data. Souvent, les données générées en continu sont si nombreuses qu’elles ne peuvent être traitées et évaluées à temps. Comme le dit le statisticien britannique David Hand :
« À l’heure du Big Data, il est facile de penser que nous disposons de toutes les informations nécessaires pour prendre de bonnes décisions. Mais en fait, les données ne sont jamais complètes et peuvent ne représenter que la partie émergée d’un iceberg. »
(« In the era of big data, it is easy to imagine that we have all the information we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg. »)
- David Hand
Examinons quatre scénarios spécifiques. Les Dark Data sont :
- Des données dont l’existence est inconnue
- Des données qui sont sujettes à des incertitudes
- Des données qui sont stockées sans être utilisées
- Des données qui n’ont pas encore été collectées
Dans les quatre scénarios, nous distinguons en outre deux cas distincts :
- L’entreprise est consciente que des données sont manquantes, incomplètes ou sujettes à des incertitudes.
Ce cas est moins problématique. Si l’on est conscient que les données disponibles peuvent ne représenter que la partie émergée d’un iceberg, l’entreprise peut prendre des contre-mesures. Elle peut essayer d’obtenir des données plus complètes ou évaluer les données disponibles en tenant compte des incertitudes.
- L’entreprise n’est pas consciente que des données manquent ou elle suppose que les données disponibles sont complètes.
Ce cas est plus dangereux. Si l’on part du principe qu’il existe une image complète de la situation sur la base des données disponibles, l’entreprise fonctionne en décalage avec la réalité. Les conclusions tirées de données incomplètes conduisent à des décisions qui ne sont pas optimales.
À l’heure du Big Data et du data mining, les entreprises s’efforcent de tirer le maximum d’information des données.
Qu’est-ce qu’une donnée exactement ?
Le terme « données » est sur toutes les lèvres depuis l’explosion des technologies de l’information. Utilisé par des politiciens, des représentants du monde des affaires et des scientifiques, ce terme reste nébuleux pour de nombreuses personnes. Cela s’explique par le fait que les données ne sont pas de nature physique : il s’agit d’un concept abstrait.
Les données ne sont pas synonymes d’informations
Tout d’abord, gardons à l’esprit que les données sont une manifestation de l’information. En fait, les données sont les plus petits éléments constitutifs de l’information. De la même manière que les atomes sont les plus petits éléments constitutifs de la matière, ou que les photons sont les plus petits éléments constitutifs de l’énergie.
Nous utilisons ici le terme « information » comme un terme abstrait, comme la matière et l’énergie. Lorsque nous parlons d’informations au pluriel, nous parlons d’expressions concrètes.
Chaque donnée est dénuée de sens en soi. Seule l’interprétation de plusieurs données permet d’obtenir des informations exploitables. Pour comprendre cela, imaginez les données comme des lettres individuelles. Une seule lettre, par exemple la lettre « O », n’a pas de signification en soi. Ce n’est que lorsque plusieurs lettres sont combinées que l’on obtient un mot, par exemple « pomme ». De plus, l’ordre est décisif : « mepom » ne veut rien dire.
Les informations sont donc des données résumées dans des structures et délimitées les unes des autres. Le processus d’interprétation dépend du contexte. Cela signifie qu’une série de données peut être interprétée différemment, ce qui peut donner lieu à plusieurs significations. Pensez à nouveau au mot « pomme ». Au lieu de combiner les lettres individuelles en un seul mot, nous pourrions compter les lettres. Le résultat serait une information différente basée sur les mêmes données.
Imaginons que la totalité des données d’une organisation soit une montagne. Le défi consiste ensuite à extraire des informations utiles de cette montagne de données. Contrairement à une montagne physique, où la matière précieuse ne peut être extraite qu’une seule fois, les informations utiles peuvent en principe être extraites plusieurs fois d’une montagne de données. Cela dépend du contexte et de la perspective.
La hiérarchie de l’information
Si l’information est composée de données, comme la matière est composée d’atomes, il est naturel de supposer que d’autres structures de niveau supérieur existent. En fait, il existe une hiérarchie de l’information : les données sont au bas de l’échelle, suivies des informations, puis des connaissances.
La connaissance est composée d’informations liées. Il y a une hiérarchisation des différents éléments d’information. Certains sont primaires, d’autres secondaires. Le concept de référence, connu aujourd’hui sous le nom d’(hyper)lien, est essentiel à la connaissance : une information qui renvoie à une autre unité de connaissance. Les entrées de Wikipedia, les recettes et les processus documentés sont des exemples de connaissances.
L’intelligence s’appuie sur la connaissance. Elle nous permet de tirer des conclusions et de reconnaître des modèles à partir des connaissances acquises et de l’expérience accumulée. De nouvelles connaissances sont synthétisées en créant et en testant des hypothèses. L’information exécutable, en d’autres termes le code, est cruciale pour l’intelligence. Il peut s’agir d’algorithmes ou d’heuristiques. Alors que les données, les informations et les connaissances sont inertes, l’intelligence nécessite un environnement d’exécution comme les cellules, les organismes, les ordinateurs et les réseaux.
Le niveau le plus élevé de la hiérarchie de l’information est la sagesse. La sagesse est l’ensemble des connaissances et de l’intelligence. La sagesse permet d’évaluer différentes voies pour trouver des solutions équilibrées. Les questions intéressantes ne sont pas tant « quoi » (données, informations) ou « comment » (connaissance, intelligence), mais « pourquoi » et « pour quoi faire ». Une bibliothèque est un bon exemple de sagesse. Elle comprend non seulement la connaissance sous forme de livres et d’autres médias, mais aussi l’intelligence à travers le personnel et les systèmes d’indexation.
- Sécurité des données
- Outils de collaboration intégrés
- Hébergement dans des data centers européens
Comment les Dark Data sont-elles créées ?
Les processus organisationnels qui s’appuient sur des méthodes modernes de traitement de l’information produisent constamment des données. Une certaine proportion des données est constituée de Dark Data. Soit l’information selon laquelle les données existent est perdue, soit elle est manquante dès le départ. Ou bien la connaissance du mode d’évaluation des données n’est pas disponible.
Les Dark Data se présentent sous de nombreuses formes. Comme le dit l’expert en marketing Sky Cassidy :
« Quant aux Dark Data, il s’agit de toutes les informations que les entreprises collectent dans le cadre de leurs activités habituelles, qu’elles n’utilisent pas, qu’elles ne prévoient pas d’utiliser, mais qu’elles ne jetteront jamais. Il s’agit des journaux Web, des données de suivi des visiteurs, des images de surveillance, des correspondances par email des anciens employés, et bien plus encore. »
(« So as for Dark Data, it’s all the information companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, surveillance footage, email correspondences from past employees, and so much more. »)
- Sky Cassidy
Les Dark Data sont créées par des données oubliées ou inaccessibles
Une grande catégorie de Dark Data est constituée de données qui ne sont plus accessibles. Il peut s’agir de données oubliées ou de données inaccessibles.
Les employés stockent en permanence des données sur leurs appareils privés et professionnels. Il arrive rapidement que ces données soient oubliées et deviennent des Dark Data. Les données contenues sur les clés USB et les disques durs portables, ainsi que les supports de données internes des appareils de bureau et mobiles mis hors service, sont tout aussi importantes que les données contenues dans les pièces jointes des emails et les bases de données inutilisées.
L’extensibilité presque infinie est l’un des avantages du Cloud, mais aussi une malédiction. Car avec l’aide du stockage sur le Cloud, il est possible de continuer à accumuler des données sans jamais atteindre de limite fixe. Cela incite les employés à collecter des quantités illimitées de données. Si la frénésie de collecte a lieu en dehors de processus strictement réglementés, le résultat est généralement des Dark Data.
Si les données sont stockées sous forme numérique, il faut veiller à leur sécurité et à leur protection en les cryptant et en protégeant les systèmes avec des autorisations. Mais que se passe-t-il si le mot de passe de connexion est oublié ou si la clé est introuvable ? Dans les deux cas, il n’y a plus d’accès aux données ; la connaissance des informations contenues est perdue.
Mais il y a un autre danger à perdre l’accès aux données réellement présentes. Cela peut se produire si les données ne sont plus disponibles sous une forme accessible. Par exemple, s’il s’agit d’un format de fichier propriétaire, un programme spécial peut être nécessaire pour le lire. Toutefois, il se peut que le programme ne puisse plus être exploité ou qu’il ne soit plus disponible dans la version requise. Cela signifie que les données restent piégées dans le vendor lock-in.
Les Dark Data résultent de données incomplètes ou périmées
Les Dark Data ne sont pas seulement des données qui ne sont plus accessibles. Elles comprennent également des données incomplètes ou périmées. Laissons le statisticien David Hand s’exprimer à nouveau :
« Les Dark Data sont des données que vous n’avez pas. Cela peut être dû au fait que vous voulez les données d’aujourd’hui, mais que vous n’avez que celles d’hier. Cela peut être dû au fait que votre échantillon est faussé, que certains types de cas sont absents. Cela peut être dû au fait que les valeurs enregistrées sont inexactes ; après tout, aucun instrument de mesure n’est parfait. »
(« Dark Data are data you don’t have. This might be because you want today’s data, but all you have is yesterday’s. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inaccurate – after all, no measurement instrument is perfect. »)
- David Hand
N’oubliez pas que les données constituent le niveau le plus bas de la hiérarchie de l’information. Les inexactitudes et les écarts dans les données se manifestent dans les niveaux supérieurs d’information. Il en résulte généralement des effets en cascade : de petits écarts entraînent de grands changements. Ainsi, des données incomplètes peuvent avoir de graves effets.
La situation est similaire avec les données périmées. Prenons l’exemple de la géolocalisation d’un utilisateur, qui est stockée dans un ensemble de données. Comme la géolocalisation change constamment au gré des déplacements de l’utilisateur, les informations qu’elle contient ne peuvent être utiles que si les données sont analysées en temps réel. Par exemple, si l’on veut faire une offre géolocalisée à un utilisateur, il faut le faire pendant que l’utilisateur est encore sur le site.
Les Dark Data proviennent de données qui n’ont pas été évaluées
Une grande catégorie de Dark Data consiste en des données qui ont été collectées et stockées mais qui n’ont pas été évaluées. Un volume particulièrement élevé de Dark Data provient de sources qui génèrent des données automatiquement. Cela inclut les capteurs, ainsi que l’historique et les statistiques de visite des sites Web. Les données générées sont souvent stockées pendant de longues périodes sans que les informations qu’elles contiennent ne soient extraites et analysées.
Certaines données sont dans des formats qui nécessitent des procédures complexes d’évaluation. Cela comprend le texte contenu dans les fichiers d’images ainsi que les paroles dans les fichiers audio. En général, les images numériques contiennent une foule d’informations qui ne peuvent être automatisées qu’à l’aide de méthodes modernes d’intelligence artificielle. La reconnaissance des formes et la classification sont utilisées pour identifier et attribuer les objets représentés dans les données d’image. Étant donné que ces approches sont encore relativement nouvelles, la majorité des images stockées dans le monde contiennent probablement des Dark Data.
Parfois, les Dark Data sont issues de données existantes mais non analysées. C’est-à-dire lorsque les données ne sont stockées et conservées qu’à des fins d’archivage à valeur probante, sans qu’il y ait la moindre intention de les analyser. Le statisticien David Hand résume le problème en quelques mots :
« Il se peut même que les données soient disponibles, mais qu’elles ne soient pas examinées, qu’elles se décomposent lentement dans un entrepôt de données géant, qu’elles ne soient pas consultées parce qu’elles ont été collectées uniquement pour des raisons de conformité. »
(« It might even be that the data are available, but unexamined, gently decaying in a giant data warehouse, unlooked at because they were collected purely for compliance reasons. »)
- David Hand
Les Dark Data sont issues de données qui n’ont pas encore été collectées
En plus des différentes formes de Dark Data déjà évoquées, il en existe une autre de nature plus théorique puisqu’il s’agit des données qui n’ont pas encore été collectées. Naturellement, ces données (qui n’existent pas encore) ne sont pas visibles pour l’entreprise. Par conséquent, il s’agit également de Dark Data.
Le statisticien David Hand établit une analogie avec la « matière noire » connue en astrophysique :
« Tout comme une grande partie de l’univers est composée de matière noire, invisible pour nous mais néanmoins présente, l’univers de l’information est rempli de Dark Data que nous négligeons à nos risques et périls. »
(« Just as much of the universe is composed of dark matter, invisible to us but nonetheless present, the universe of information is full of Dark Data that we overlook at our peril. »)
-David Hand
Pourquoi le Dark Data est-il un problème ?
Les Dark Data constituent un problème pour les entreprises et autres organisations. Il y a plusieurs raisons à cela. Nous ne discutons ici que des cas où il existe des données réelles. Nous excluons les cas où les données n’existent pas encore.
Le stockage des données sombres est inefficace
Le stockage de toute donnée nécessite des ressources, notamment de l’espace de stockage et de l’énergie fournie par la société de stockage. Cela entraîne des coûts pour l’organisation qui possède les données. Un effort est donc déployé pour stocker les données.
L’efficacité est définie comme le quotient du bénéfice et de l’effort. Si un bénéfice élevé est obtenu avec peu d’efforts, on parle de haute efficacité. Mais un bénéfice réduit pour un effort élevé signifie que l’efficacité est faible.
Efficacité = Bénéfice / Effort
Les données sont censées être utiles. Avec des Dark Data, le bénéfice réel est limité. Néanmoins, un effort continu doit être déployé pour stocker les données. Par conséquent, le stockage des Dark Data est inefficace.
Impossible de trouver l’aiguille de l’information dans la botte de foin des Dark Data
Imaginons que l’ensemble des données d’une organisation soit un iceberg. Alors la majorité des données sont des Dark Data. Malheureusement, ce n’est pas le cas des données utiles qui s’accumulent à la surface. Au contraire, elles sont mélangées aux Dark Data et sont difficiles à séparer. Pour trouver des données utiles, il faut sonder tout l’iceberg.
En raison de la masse considérable de Dark Data, des informations utiles peuvent rester cachées. Il est difficile de déterminer si une données à de la valeur en soi. Les données manquantes ou erronées conduisent à des informations incorrectes. Les Dark Data influencent donc les conclusions qui sont tirées des informations disponibles. Cette situation limite la capacité de l’entreprise à faire preuve d’intelligence.
Personne ne sait ce qu’il y a dans les Dark Data
Les Dark Data sont par définition sombres. On ne peut jamais être sûr qu’elles ne comportent pas quelque chose d’utile. Il n’est pas non plus exclu que les données contiennent des informations sensibles qui ne doivent pas tomber entre de mauvaises mains.
Les données sont généralement stockées pendant de longues périodes. Les Dark Data sont peu utiles à l’entreprise. Il y a souvent un manque de motivation pour sécuriser les données. Les données stockées non utilisées sont facilement oubliées. Il est donc plus probable de trouver des Dark Data insuffisamment sécurisées.
En principe, les données peuvent toujours inclure des informations qui nécessitent une protection particulière. Dans la plupart des cas, les données individuelles sont inoffensives ; en revanche, des informations sensibles peuvent être extraites de grandes quantités de données. Par exemple, des profils de mouvement peuvent être créés à partir de données de localisation recueillies sur de plus longues périodes. La perte de Dark Data présente donc un risque élevé de dommages.
En plus de la fuite de données sensibles, il existe un autre risque associé aux Dark Data. En effet, ces données peuvent ne pas être récupérées après un incident par le plan de reprise après sinistre. Imaginons un système qui fonctionne proprement. Tous les composants sont censés être connus et des sauvegardes Cloud de ces composants ont été conservées. Ce que personne ne sait : l’un des composants était constitué de Dark Data. Lorsque le système est restauré, il manque une pièce essentielle. Dans le pire des cas, cela peut entraîner la défaillance de systèmes importants.
- Sécurité des données
- Outils de collaboration intégrés
- Hébergement dans des data centers européens
Les Dark Data sont difficiles à éliminer
Une montagne de données est difficile à suivre. Les Dark Data peuvent contenir des informations utiles ou sensibles. Certaines périodes de conservation peuvent être prescrites pour le stockage des données. Il n’est donc pas facile de se débarrasser de ces données.
Cette situation est comparable à celle des déchets dangereux, qui sont difficiles ou impossibles à trier. Si une tonne de déchets contient un gramme de matière hautement toxique, la tonne entière est traitée comme un déchet dangereux. Les données continuent donc d’être stockées, la montagne de données continue de croître. Cela augmente également les coûts liés à son stockage.