pourquoi cet article
Le web regorge de contenus utiles pour entraîner des modèles d’intelligence artificielle. Mais récupérer massivement des données pose de véritables enjeux juridiques et éthiques. Ce guide vous aide à scrapper de manière conforme, en appliquant les exigences du RGPD et les recommandations de la CNIL.
réglementation applicable
- RGPD : s’applique si les données collectées permettent d’identifier une personne (ex. pseudonymes, contenus associés à une IP, etc.).
- Directive sur le droit d’auteur (TDM) : autorise certains usages si les sites ne s’y opposent pas explicitement.
- AI Act : impose la transparence sur les données d’entraînement pour certains modèles génératifs.
principes du scraping responsable
- Licéité : ne scraper que des sites publics qui ne s’y opposent pas explicitement.
- Transparence : informer les personnes concernées, même pour les données accessibles publiquement.
- Minimisation : collecter uniquement ce qui est nécessaire à l’objectif d’entraînement.
- Sécurité : pseudonymiser ou anonymiser rapidement les données.
- Respect des standards techniques : robots.txt, ai.txt, tdmrep.
sources à éviter ou exclure
- Contenus destinés aux mineurs.
- Sites de santé, religieux, politiques ou sexuels.
- Réseaux sociaux avec authentification ou barrières payantes.
- Sites avec mentions explicites d’interdiction de collecte automatisée.
information et opposition
Si vous collectez des données personnelles, même publiques, vous devez :
- Informer les personnes concernées (mention d’information sur votre site, communication sectorielle, etc.).
- Prévoir un mécanisme d’opposition (formulaire simple, adresse de contact dédiée).
- Réagir aux demandes d’effacement si applicables.
documentation du projet de scraping
- Liste des sources ciblées, avec justification de leur licéité.
- Volume de données visé et type de contenu collecté.
- Mesures de minimisation et de pseudonymisation.
- Processus de tri des données sensibles ou exclues.
- Information mise à disposition des personnes.
- Base légale utilisée (souvent intérêt légitime).
outils recommandés
- Analyse automatique de robots.txt et ai.txt.
- Outils d’opt-out dédiés (ex. TDMRep, GPC signal).
- Fichiers de filtre de catégories interdites.
- Pipeline de nettoyage automatisé (regex, NLP, etc.).
à ne pas faire
- Collecter sans documenter le projet de scraping.
- Ignorer les standards d’exclusion.
- Scraper les réseaux sociaux ou les plateformes soumises à identification sans autorisation explicite.
- Scraper « par défaut » sans stratégie de filtrage éthique.
ressources utiles
- CNIL : Recommandations sur le scraping (juin 2025)
- TDMRep : opt-out pour le droit d’auteur
- CEPD : avis sur l’entraînement des modèles IA
ce que Rouge Hexagone peut faire pour vous
Rouge Hexagone peut vous aider à :
- Sécuriser vos projets de scraping (audit, documentation, stratégie).
- Rédiger des mentions d’information et clauses contractuelles associées.
- Automatiser le nettoyage des données avant entraînement IA.