Le journalisme d’investigation sur Internet est devenu monnaie courante dans un bon nombre de rédactions. Le financement par Total de soldats coupables d’exactions au Mozambique, la fabrication de drones de combat russes par des étudiantes africaines ou encore le chaos de la finale de la Ligue des Champions 2022 au Stade de France : tous ces sujets ont été traités par Le Monde via un seul modèle opératoire. Et cette méthode se nomme l’OSINT. Que signifie cet acronyme et comment cet outil aide les journalistes dans leurs enquêtes numériques ? Faisons les présentations en 10 points.

L’article est tiré de la formation MOOC OSINT-FR, que vous pouvez retrouver sous ce lien.

❶ Qu’est ce que l’OSINT ?

L’OSINT, soit Open Source Intelligence ou Renseignement de sources ouvertes en français, consiste à collecter, traiter puis analyser des informations librement accessibles au public, sur Internet et ailleurs.

Elles ne proviennent pas de piratage. Au contraire, elles rentrent dans le cadre légal (respect des lois), éthique (respect de la vie privée) et légitime (respect des conditions d’accès des plateformes).

En résumé, c’est une méthode de collecte d’informations à partir de sources publiques. Et face au volume de données disponibles qui explose chaque seconde sur Internet, l‘OSINT va faciliter le travail d’extraction. Elle permet de réinjecter du sens dans le puissant flot informationnel.

❷ Quels sont les champs d’actions de l‘OSINT ?

L’OSINT va se concentrer sur différents terrains numériques :

– Les sites web en travaillant sur le contenu visible, mais aussi les métadonnées et l’historique ;

– Les bases de données publiques comme les registres de sociétés, les brevets, les décisions de justice, les rapports gouvernementaux, les publications académiques ;

– Les médias en ligne avec les articles et archives pour la presse, et les vidéos, émissions et podcasts pour les médias audiovisuels ;

– Les réseaux sociaux où seront scrutés les profils, les interactions, les communautés et les photos géolocalisées ;

– Les données géospatiales (images satellite, cartes, SIG).

Ses champs d’intervention sont tout aussi vastes. L’OSINT est utilisée dans la cybersécurité pour détecter des fuites de données, le renseignement pour cartographier les réseaux d’influence, le monde entrepreneurial pour identifier les menaces concurrentielles ou recruter. Et évidemment le journalisme d’investigation utilise ces méthodes pour confirmer la véracité des images et vidéos, traquer les flux financiers, enquêter sur les problèmes sociaux et environnementaux.

L‘OSINT est-elle réservée seulement aux experts formés ?

Prenons un exemple :

La publication ci-dessous relaie la manifestation du 1er août 2020, à Berlin, réclamant l’abolition des mesures contraignantes pour combattre le Covid-19. Elle prétend avoir attiré 1,5 millions de personnes. L’image confirme la mobilisation populaire annoncée.

Mais problème : cette image ne provient pas de cette manifestation.

Pour vérifier la véracité de cette photo, vous avez copié l’adresse url de l’image et vous l’avez collée dans Google Images pour retrouver sa toute première apparition. Cette photo remonte finalement au 6 juin 2020, jour de manifestation en réaction à la mort de George Floyd organisée sur cette même Alexanderplatz dans la capitale allemande.

Vous avez démontré cette tentative de manipulation par l’authentification de la photo. Une méthode de fast-checking réputée. Finalement, vous avez déjà fait de l’OSINT. De nombreux outils composent en effet l’OSINT.

Découvrons d’autres méthodes de renseignement.

❹ Quelles règles sont à suivre ?

A. L’OSINT repose déjà sur une méthodologie rigoureuse :

– Définir l’objet de la recherche ;

– Effectuer la recherche ;

Analyser les données brutes ;

– Vérifier et croiser les sources ;

– Publier le rapport répondant à la demande.

B. L’OSINT repose également sur des principes directeurs.

Ces principes reposent sur le RGPD, le cadre légal européen sur le traitement des données personnelles. Ce règlement impose le respect du droit à l’information (documenter son usage des données récupérées) et la minimisation des données collectées (récupérer et traiter seulement le minimum de données nécessaires). 

C. L’OSINT rencontre également des dangers.

Nous devons protéger notre vie privée face à des menaces telles que les réseaux criminels, les tentatives retours de hacking, le harcèlement. Dans ce sens, n’enquêtez jamais depuis vos comptes personnels ou votre IP domestique (utilisez le réseau TOR qui cache votre adresse IP), recourez à un système d’exploitation sécurisé qui fournit un haut niveau de protection face aux cyberattaques (comme Linux configuré, Whonix, Qubes OS, Exegol pour les cas les plus sensibles), favorisez les réseaux privés virtuels (des VPN payants comme ProtonVPN, Mullvad, IVPN) qui contribuent à masquer la zone géographique de connexion et se protéger contre l’écoute locale, et nettoyez régulièrement les caches et les cookies (grâce à uBlock Origin).

Nous sommes victimes de nombreux biais cognitifs comme celui de confirmation, où nous recherchons les informations qui confirment nos idées de départ. Il existe également ceux de disponibilité, de ressemblance, de présentation, etc. Il est possible de les contourner en discutant avec autrui ou en détectant les éléments probables de tromperie (visuels émouvants, vidéos coupées, textes aguicheurs).

Nous pouvons aussi être exposés à des risques psychologiques, d’ordre de la santé mentale comme les traumatismes vicariants, à cause de l’accessibilité aux contenus sensibles et violents.

❺ Comment repérer les données sur les moteurs de recherche ?

Sur des moteurs de recherche comme celui de Google, nous ne sommes pas en terre conquise. Les moteurs de recherche présentent une masse de données conséquente sur plusieurs pages et favorisent partialement des sites comme ceux référencés (SEO), ceux recommandés (selon nos préférences à partir de nos données) et les annonces.

→ Pour contourner ces pièges, la solution est de passer par les opérateurs avancés

Voici les principaux opérateurs avancés qui facilitent vos recherches ciblées :

– Taper directement son nom de domaine (ex : site:sncf-reseau.com) pour tomber directement sur le site recherché ;

– Cibler un type de fichier (pdf, docx pour document word, pptx pour présentation,…) ;

– Utiliser des guillemets pour rechercher une expression exacte ou un document précis (ex : « Carte nationale des principaux chantiers en 2025 »), taper « intitle : » suivi du mot à trouver pour explorer les titres internes du document (ex : intitle: »conclusion » ).

Et il est même recommandé de combiner ces opérateurs pour une recherche plus précise et efficace. Par exemple : site:sncf-reseau.com « Carte nationale des principaux chantiers en 2025 ».

Conseils : Soyez flexible sur le moteur de recherche utilisé selon le type de vos recherches. Vous disposez de Google, Bing, DuckDuckGo, Yandex (réseau russe), Baidu (réseau chinois).

❻ Comment repérer les données via les réseaux sociaux ?

Connaissez-vous les 2 points communs entre les informations présentes sur les moteurs de recherche et les réseaux sociaux ? Leur volume démentiel et le biais des algorithmes.

Les réseaux sociaux forment le cœur des interactions sociales en ligne. Un véritable recueil public de photos, de vidéos, d’opinions et tout simplement de traces de vie numériques des individus.

L’OSINT repose sur deux outils à télécharger pour mener son investigation sur les réseaux sociaux :

  • Sherlock permet de localiser les comptes d’une personne. Il vérifie si un pseudonyme ou une identité numérique est enregistré sur plusieurs centaines de plateformes (Twitter, Instagram, Telegram,…) ;
  • WhoPostedWhat se consacre à Facebook. Il recherche des publications publiques par date et mot-clé.

Attention : Certaines plateformes peuvent détecter ces outils et vous bloquer en cas d’usage abusif (risque de suspension de compte, voire de blocage d’IP).

❼ Comment réaliser parfaitement son fast-checking ?

Dans un contexte de désinformation et de mésinformation, il est crucial de garantir la fiabilité de ses informations. Pour assurer ce travail de vérification des sources. Mode d’emploi :

  • Vérifiez la date de publication pour ne pas se retrouver avec une image détournée ou republiée plusieurs temps après pour tromper (une photo d’une manifestation en Allemagne à tout hasard). Pour cela, jetez un œil sur les métadonnées associées comme la date d’upload. Interrogez-vous sur la cohérence du contenu en recoupant avec d’autres sources de la même période. Utilisez des outils pour remonter à l’origine de la toute première publication. Pour une photo, recherchez la via Google Lens, Yandex Images ou Bing Visual Search. Pour une vidéo, passez par InVID qui contribue à détecter des copies d’une vidéo.
  • Croisez les sources de préférence reconnue (médias réputés, institutions), indépendante et hors du cercle informationnel de la source de départ.
  • Méfiez-vous des contenus sensationnalistes (récit épique, abus de majuscules et d’émojis, absence de source).

❽ Comment extraire les données récoltées ?

Nous en sommes maintenant à l’étape de l’extraction des données ciblées. Et même problème rencontré depuis le début : face la multitude de données présentes sur le web, il est bien trop difficile de la faire manuellement. Le web scraping est la solution.

Le web scraping consiste à automatiser la collecte de données en naviguant sur les sites web de manière programmée ou semi-automatique, afin d’en extraire les informations nécessaire. Il est utilisé pour une base de donnée incommensurable, ainsi que pour suivre son évolution.

Le web scraping passe par plusieurs outils :

– L’extension de navigateur de Chrome Webscraper.io. Elle permet de lancer une collecte de données structurées (textes, liens, images, tableaux) à partir d’une sélection d’éléments à extraire. Idéal pour collecter des listes de publications et automatiser la récupération de contenu répété sur plusieurs pages ;

– Des outils en ligne comme ParseHub et Octoparse. Ils permettent l’extraction dynamique de données. Idéal pour les utilisateurs non développeurs souhaitant automatiser des extractions complexes.

❾ Comment analyser les données ?

Nous avons présenté notre élément de recherche, respecté rigoureusement le cadre légal, débuté nos recherches à travers les moteurs de recherche et les réseaux sociaux, vérifié parfaitement les sources et extrait les données qui nous intéressent. Il manque plus qu’à les analyser.

Mais avant de débuter votre analyse :

  • Reliez les données qui se connectent. Par exemple, une adresse mail qui réapparaît sur plusieurs forums, un nom de domaine lié à plusieurs sites au contenu similaire ;
  • Hiérarchisez les informations en fonction de leur fiabilité et de leur pertinence ;
  • Mettez en lumière les dissonances. Deux dates incohérentes sur un même profil, une société prétendument fermée, mais toujours active sur les réseaux sociaux, cela est suspect.

Présentons maintenant la base du kit gratuit d’analyse made in OSINT :

Maltego CE

cartographie des relations entre des « entités » (noms, adresses mails, comptes de réseaux sociaux, adresses IP) à partir d’une requête appelée « transform ». Par exemple : « À partir de nom@gmail.com, trouver les réseaux sociaux associés ». Il produira un graphe interactif pour afficher les connexions entre l’adresse mail et les différents réseaux sociaux.

SpiderFoot

lance des analyses automatiques complètes sur une entité (domaine, IP, pseudo, email, nom) à partir de bases données, des réseaux sociaux et des moteurs de recherche.

Il génère un rapport exhaustif et structuré à partir d’une demande, comme « réaliser un profil ». Il founira un rapport avec des liens cliquables et l’évaluation des risques.

Google Earth

accède à des images satellite, des cartes, des reliefs ou des bâtiments 3D de n’importe quel lieu sur la planète. Il présente aussi les archives du lieu en question, ainsi nous pouvons constater son évolution dans le temps. Le logiciel est utilisé par Le Monde dans ses enquêtes vidéo, par exemple celle sur la destruction de la ville de Rafah en Palestine.

❿ Concrètement, qu’est-ce que cela donne une enquête journalistique made in OSINT ?

Bellingcat est un média d’investigation spécialisé dans l’OSINT. Il utilise la base de données des médias sociaux pour mener ses enquêtes. Parmi celles-ci, Bellingcat traite de crimes contre l’humanité et de témoignages sur des conflits mondiaux.

Mais nous allons plutôt vous présenter une enquête de « Sources« , magazine d’Arte. L’équipe de « Sources » utilise les données des médias sociaux pour mener à bien leurs investigations, tout en offrant des explications pédagogiques.

Démonstration avec le trafic de gorilles.

Les journalistes ont découvert une annonce sur les réseaux sociaux de vente de bébés gorilles, issus du braconnage. Ils retrouvent des contenus sur TikTok où un trafiquant met en scène des bébés gorilles dans des cages.

Ils décident de le contacter par WhatsApp, le trafiquant leurs confirme l’illégalité de son trafic et leurs explique même la nature du trafic : la capture, le transport de la République Démocratique du Congo à la Libye, les risques et l’exportation vers l’Europe.
L’enquête OSINT ne fait que démarrer. A partir de son numéro de téléphone, les journalistes retrouvent son identifiant Snapchat. Et à l’aide de l’indicatif de son numéro mentionné sur WhatsApp (+962), ils repèrent que ce trafiquant provient de Jordanie. Comment le confirmer ? L’équipe consulte une vidéo de son compte Snapchat et démarque une enseigne commerciale. Après des recherches sur celle-ci, peut-être grâce à Google Image, les journalistes retrouvent cette enseigne, sûrement via Google Earth. Elle provient d’une rue d’Amman, capitale de la Jordanie. Information vérifiée.

Les journalistes retrouvent son compte Facebook, qui partage la même photo de profil que celui de Snapchat. Ce compte Facebook affiche également son numéro de téléphone, ce qui confirme bien son identité. Sur son Facebook, ses historiques de vente illégale d’animaux sauvages s’affichent. La retranscription de l’enquête se poursuit avec des explications, notamment celles obtenues par ce trafiquant. L’OSINT a grandement contribué à cette investigation sur le trafic des gorilles.
Vous pouvez retrouver l’intégralité de la formation MOOC OSINT-FR via ce lien.