Qu’est-ce que le Web scraping ?
Les moteurs de recherche tels que Google utilisent depuis longtemps des robots d’indexation explorant Internet à la recherche de termes définis par l’utilisateur. Les robots d’indexation sont des robots particuliers visitant successivement les sites Internet afin de créer des associations avec des mots-clés et de les catégoriser. Le premier robot d’indexation a fait son apparition en 1993 avec l’introduction du premier moteur de recherche Jumpstation.
Le Web scraping ou Web harvesting est une technique d’indexation. Nous vous expliquons comment cela fonctionne, dans quel but elle est utilisée et comment la bloquer le cas échéant.
Web scraping : définition
Le Web scraping (de l’anglais scraping = « gratter/racler ») consiste à extraire des données de sites Internet et à les enregistrer afin de les analyser ou de les utiliser de toute autre façon. Le scraping permet de collecter des informations de nature bien différente. Il peut par ex. s’agir de coordonnées comme des adresses e-mail ou des numéros de téléphone, mais aussi de mots-clés individuels ou d’URL. Ces informations sont alors rassemblées dans des bases de données locales ou des tableaux.
Le Web scraping sélectionne des textes sur les sites Internet afin d’obtenir des informations et de les enregistrer. Ce processus est comparable à un copier-coller automatique. Pour la recherche d’images, la dénomination du processus est encore plus précise et s’intitule image scraping.
Comment fonctionne le Web scraping ?
Le scraping comprend différentes fonctionnalités, mais on opère généralement une distinction entre le scraping manuel et automatique. Le scraping manuel désigne le fait de copier et insérer manuellement des informations et des données. On peut le comparer avec le fait de découper et rassembler des articles de journaux. Le scraping manuel est uniquement effectué lorsque l’on souhaite trouver et enregistrer des informations de façon sporadique. Il s’agit d’un processus très laborieux qui est rarement appliqué pour de grandes quantités de données.
Dans le cas du scraping automatique, on utilise un logiciel ou un algorithme qui explore plusieurs sites Internet afin d’extraire des informations. Un logiciel spécifique est utilisé en fonction de la nature du site Internet et du contenu. Dans le scraping automatique, on distingue différentes méthodes :
- Les analyseurs syntaxiques : un analyseur syntaxique est utilisé pour convertir le texte en une nouvelle structure. Dans le cas de l’analyse d'un HTML par exemple, le logiciel lit le document HTML et enregistre les informations. L’analyse d’un DOM utilise l’affichage des contenus dans le navigateur côté client pour extraire les données.
- Les robots : un robot est un logiciel réalisant des tâches spécifiques et les automatisant. Dans le Web harvesting, les robots sont utilisés pour explorer automatiquement des sites Internet et collecter des données.
- Le texte : les personnes sachant utiliser la Command Line peuvent utiliser les instructions Unix grep pour explorer le Web à la recherche de certains termes dans Python ou Perl. Il s’agit d’une méthode très simple pour obtenir des données qui requiert toutefois davantage de travail que lorsqu’on utilise un logiciel.
Nous vous expliquons à quoi faire attention lorsque vous réalisez du Web scraping avec Python dans le tutoriel correspondant. Le pilote Web Selenium peut être facilement intégré pour collecter des données.
Dans quel cas le Web scraping est-il utilisé ?
Le Web scraping est utilisé pour une multitude de tâches. Il permet par ex. de récolter rapidement des données de contact ou des informations spécifiques. Dans le domaine professionnel, le Web scraping est souvent utilisé pour accéder à des avantages par rapport à des concurrents. Le harvesting de données permet à une société de consulter tous les produits d’un concurrent et de les comparer avec ses propres produits. Le Web scraping apporte également une valeur ajoutée pour les données financières : les informations sont lues depuis un site Internet externe, transférées dans un tableau et peuvent ensuite être analysées et traitées.
Google constitue un bon exemple de Web scraping. Le moteur de recherche utilise cette technologie afin d’afficher des informations météorologiques ou des comparatifs de prix pour des hôtels et des vols. Parmi les comparateurs de prix, nombreux sont ceux à également utiliser le Web scraping afin d’afficher des informations de nombreux sites Internet et prestataires.
Le Web scraping est-il légal ?
Le scraping n’est pas toujours légal et les « scrapers » doivent tout d’abord respecter les droits d’auteur des sites Internet. Pour certaines boutiques en ligne et prestataires, le Web scraping a des conséquences très négatives, par ex. lorsque le classement d’une page est affecté par des agrégateurs. Aussi n’est-il pas rare de voir une entreprise poursuivre en justice un comparateur afin de mettre un terme au Web scraping. Une affaire de ce type a été présentée à la Cour d’appel de Francfort en 2009, qui a toutefois statué qu’une compagnie aérienne devait permettre aux comparateurs de réaliser du Web scraping car leurs informations étaient librement accessibles. La compagnie aérienne a néanmoins la possibilité d’installer des mesures techniques pour empêcher le scraping.
Le scraping est donc légal lorsque les données extraites sont librement accessibles par des tiers sur le Web. Pour vous assurer d’être dans votre bon droit en faisant du Web scraping, respectez les règles suivantes :
- Consultez et respectez les droits d’auteur. Lorsque les données sont protégées par des droits d’auteur, elles ne peuvent pas être publiées à un autre endroit.
- Les exploitants de site Internet sont en droit d’installer des processus techniques empêchant le Web scraping. En aucun cas, ces processus ne doivent être contournés.
- Lorsque l’utilisation des données est liée à une connexion utilisateur ou à un contrat d’utilisation, ces données ne doivent pas faire l’objet d’un Web scraping.
- Le fait de masquer de la publicité, des conditions générales d’utilisation ou des clauses de non-responsabilité avec une technologie de scraping est interdit.
Même si le scraping est autorisé dans de nombreux cas, il peut être utilisé de façon abusive à des fins destructrices, voire illégales. Cette technologie est par exemple souvent utilisée pour envoyer des spams. Grâce à elle, les « spammers » peuvent par ex. collecter des adresses e-mail et envoyer des messages spam à ces destinataires.
Comment bloquer le Web scraping ?
Afin de bloquer le scraping, les exploitants de sites Internet peuvent prendre différentes mesures. Le fichier robots.txt est par exemple utilisé pour bloquer les robots des moteurs de recherche. Par conséquent, ils empêchent également le scraping automatique effectué par les robots logiciels. Les adresses IP des robots peuvent également être bloquées. Il est possible de masquer les coordonnées et les informations personnelles de façon ciblée. D'autre part, vous pouvez renseigner les données sensibles telles que les numéros de téléphone sous forme d’image ou de CSS ce qui complique le scraping de données. Par ailleurs, il existe de nombreux prestataires payants fournissant des services anti-robot pouvant mettre en place un pare-feu. Les Google Search Console permettent également de mettre en place des notifications informant les exploitants de sites Internet lorsque leurs données font l’objet d’un Web scraping.
Veuillez prendre connaissance des mentions légales en vigueur sur cet article.