Le web regorge de contenus utiles pour entraîner des modèles d’intelligence artificielle. Mais récupérer massivement des données pose de véritables enjeux juridiques et éthiques. Ce guide vous aide à scrapper de manière conforme, en appliquant les exigences du RGPD et les recommandations de la CNIL.
Réglementation applicable
- RGPD : s’applique si les données collectées permettent d’identifier une personne (ex. pseudonymes, contenus associés à une IP, etc.).
- Directive sur le droit d’auteur (TDM) : autorise certains usages si les sites ne s’y opposent pas explicitement.
- AI Act : impose la transparence sur les données d’entraînement pour certains modèles génératifs.
Principes du scraping responsable
- Licéité : ne scraper que des sites publics qui ne s’y opposent pas explicitement.
- Transparence : informer les personnes concernées, même pour les données accessibles publiquement.
- Minimisation : collecter uniquement ce qui est nécessaire à l’objectif d’entraînement.
- Sécurité : pseudonymiser ou anonymiser rapidement les données.
- Respect des standards techniques : robots.txt, ai.txt, tdmrep.
Sources à éviter ou exclure
- Contenus destinés aux mineurs.
- Sites de santé, religieux, politiques ou sexuels.
- Réseaux sociaux avec authentification ou barrières payantes.
- Sites avec mentions explicites d’interdiction de collecte automatisée.
Information et opposition
Si vous collectez des données personnelles, même publiques, vous devez :
- Informer les personnes concernées (mention d’information sur votre site, communication sectorielle, etc.).
- Prévoir un mécanisme d’opposition (formulaire simple, adresse de contact dédiée).
- Réagir aux demandes d’effacement si applicables.
Documentation du projet de scraping
- Liste des sources ciblées, avec justification de leur licéité.
- Volume de données visé et type de contenu collecté.
- Mesures de minimisation et de pseudonymisation.
- Processus de tri des données sensibles ou exclues.
- Information mise à disposition des personnes.
- Base légale utilisée (souvent intérêt légitime).
Outils recommandés
- Analyse automatique de robots.txt et ai.txt.
- Outils d’opt-out dédiés (ex. TDMRep, GPC signal).
- Fichiers de filtre de catégories interdites.
- Pipeline de nettoyage automatisé (regex, NLP, etc.).
A ne pas faire
- Collecter sans documenter le projet de scraping.
- Ignorer les standards d’exclusion.
- Scraper les réseaux sociaux ou les plateformes soumises à identification sans autorisation explicite.
- Scraper « par défaut » sans stratégie de filtrage éthique.
Ressources utiles
- CNIL : Recommandations sur le scraping (juin 2025)
- TDMRep : opt-out pour le droit d’auteur
- CEPD : avis sur l’entraînement des modèles IA
Rouge Hexagone peut vous aider à :
- Sécuriser vos projets de scraping (audit, documentation, stratégie).
- Rédiger des mentions d’information et clauses contractuelles associées.
- Automatiser le nettoyage des données avant entraînement IA.





