Regards Citoyens TI France

Influence à l'Assemblée nationale

Améliorer la transparence du lobbying

Méthodologie de l'étude

Périmètre et période

L’étude présentée par Transparence International France et Regards Citoyens porte sur l'intégralité des rapports parlementaires produits par l'Assemblée nationale entre juillet 2007 et juillet 2010.

Tous les éléments utilisés sont issus de données publiques.

Le défi majeur de cette démarche reposait sur la multiplicité et la grande hétérogénéïté des documents traités, à savoir 1174 documents et le grand nombre d’acteurs auditionnés.

Cinq étapes

L'étude s'est déroulée en cinq étapes, depuis la mise à jour de données inédites jusqu'à leur analyse.

1/ Création d’un logiciel - Screening

Afin de recenser les personnes auditionnées à l'Assemblée, nous nous sommes penchés spécifiquement sur les rapports qui publient une liste de ces auditions. La première étape a donc consisté à créer un logiciel permettant de repérer les documents contenant cette information, généralement en annexe, et d'en extraire ces listes.

Nous avons ainsi pu identifier des listes de personnes auditionnées dans 38% des rapports étudiés.

2/ Première base de données

Les noms des organisations entendues par les députés prenant des formes très diverses, le repérage de manière automatique était impossible. Nous avons donc commencé par identifier l'élément le plus simple pour y parvenir : les noms des personnes auditionnées, avec deux techniques utilisées :

A la fin de cette étape, une base de 16 725 auditionnés potentiels a été constituée.

3/ Appel à l’intelligence collective

Nous avons ensuite fait appel à l'intelligence collective en construisant une application web de crowdsourcing invitant les internautes à retrouver pour nous le sexe, la fonction et l'organisation des personnes auditionnées. Entre le 4 et le 15 août 2010, 3 200 personnes informées par nos sites web et par les réseaux sociaux (twitter, identica, ...) nous ont aidé dans cette tâche. Afin de prévenir tout risque de données faussées lors de cette coproduction, chacun des 16 700 noms a été saisi par au moins 3 internautes différents : lorsque 2 au moins d'entre eux avaient rempli exactement la même information, les données étaient validées. Une option permettait de signaler les doublons ou les enregistrements ne correspondant pas à des personnes ayant été auditionnées. Elle a été utilisée pour un peu plus de 1 000 enregistrements.

En moins de 15 jours, 3 200 internautes nous ont aidé à enrichir notre base des organisations, fonctions et genre pour les 15 451 personnes auditionnées.

Pour plus d'information, lire le bilan sur le blog de Regards Citoyens

4/ Création d’une typologie et cartographie des organisations

Une dernière information nous manquait : dans quelles catégories classer chacune des organisations ainsi recensées ? Nous avons mis au point une typologie d’acteurs inspirée notamment du travail des institutions européennes pour leur registre de lobbyistes. En affectant les données cette typologie a évolué peu à peu de façon itérative, rendant cette tâche difficile à partager avec les internautes. Nous avons donc développé une nouvelle application web interne permettant à une demi-douzaine de membres de Transparence International France et Regards Citoyens de réaliser cette catégorisation.

La création de la typologie et la catégorisation des 4 635 organisations repérées nous ont mobilisé pendant 3 mois.

5/ Premières qualifications des données obtenues

Enfin, dernière étape, la qualification des données. Un travail d'agrégation a été nécessaire afin de regrouper les différentes occurences d'une même organisation saisies différemment. Nous avons utilisé pour cela des algorithmes assez classiques, notamment grâce au logiciel libre Freebase Grid Works, et par le développement d'un petit outil logiciel permettant de traiter les acronymes. Certaines organisations étant représentées par plusieurs représentants lors d'une même audition, nous avons estimé que cela pouvait introduire un biais dans l'étude. Nous n'avons donc comptabilisé qu'une seule fois par rapport chacun de ces organismes.

Les 30 thèmes qui sont présentés sont issus des mots clés affectés par l’Assemblée nationale aux rapports qu’elle publie

En mars 2011 sont rendues publiques une interface de visualisation ainsi qu'une première analyse des données.

Une sixième étape... à venir

Au vu de l’étendue des données traitées et de leur hétérogénéité, celles-ci contiennent encore des erreurs : chacune des personnes auditionnées dans tous les rapports n’a peut être pas encore été repérée, certaines organisations au profil particulier n'ont peut-être pas été catégorisées correctement. Cependant, Au regard de la taille de l'échantillon traité, de la période de temps étudiée (3 ans), et des méthodes de travail employées requérant une saisie multiple ainsi qu'une phase de validation à la fin de chaque étape, nous évaluons le taux d'erreur à un maximum de 5%.

Dans une démarche transparente, les données produites sont accessibles et librement réutilisables par tous. Même si les documents contenant les noms des personnes auditionnées sont tous publics, nous n'avons pu, malgré nos demandes, obtenir une réponse claire de la CNIL et de l'Assemblée nationale. C'est pourquoi, en attendant, nous avons fait le choix de ne publier que les noms des organismes afin d'anonymiser les personnes. Cette libre mise à disposition devrait notamment permettre à toutes les personnes intéressées par le fonctionnement de la vie publique d'approfondir leur connaissance du lobbying et de nous aider à améliorer, si nécessaire, ces données.

Usages de l’étude

Les données et les premiers éléments d’analyse de mars 2011 sont issus de l’étude sur l’influence à l’Assemblée nationale de Transparence International France et Regards Citoyens. Ces données sont librement réutilisables suivant les clauses de la licence ODBL. Deux conditions sont demandées en échange de l'exploitation des données :

Elles sont téléchageables depuis http://www.regardscitoyens.org/transparence-france/etude-lobbying/téléchargement/

Open DataBase Licence
Creative Commons License

Visitez l'application de crowdsourcing avec laquelle les données ont été produites

Mentions légales - Contact