mardi 31 mai 2011

La revue « Regards sur l’Actualité » a consacré son numéro d’avril aux données publiques. Essayant de synthétiser l’actualité autour de la libération des données publiques à travers des tribunes, des articles et des interviews, la Documentation Française nous a proposé d’y participer en répondant à leurs questions. Nous reproduisons ici l’interview que nous avons donnée à Céline Persini le 15 février 2011. Vous pouvez retrouver un aperçu du N° 370 de « Regards sur l’Actualité » édité par la Documentation Française sur leur site.

Céline Persini : Pouvez-vous nous rappeler le rôle de « Regards Citoyens » dans l’accès aux données publiques ?

Regards Citoyens : Regards Citoyens est une association constituée d’une dizaine de personnes qui vise à utiliser les données publiques pour valoriser et permettre aux citoyens de mieux comprendre les institutions françaises. À l’origine, nous nous sommes rassemblés autour de la création en juillet 2009 de NosDeputes.fr. Lancé le 14 septembre 2009, ce site web cherche à mettre en valeur l’activité parlementaire des députés de l’Assemblée nationale (AN). En synthétisant les différentes activités législatives et de contrôle du Gouvernement, NosDeputes.fr vise à donner aux citoyens de nouveaux outils pour comprendre et analyser le travail de leurs représentants. Conçu comme une plateforme de médiation entre citoyens et élus, le site propose à chacun de participer et de s’exprimer sur les débats parlementaires. Au travers de leurs commentaires, les utilisateurs peuvent donc prendre part aux débats et partager leur expertise avec leurs représentants. Nous utilisons des documents publiés par le site de l’AN et par le Journal Officiel pour essayer de valoriser l’activité des députés, sachant qu’en général leur travail en circonscription est relativement accessible, ne serait-ce que par la presse. D’un côté, cela rend plus lisible le travail parlementaire, et d’un autre, cela encourage le dialogue entre les institutions et les citoyens.

Nous avons par la suite travaillé sur les effets potentiels du redécoupage électoral, il n’existait alors aucune étude à proprement parler d’évaluation politique à destination du citoyen en la matière. En réalisant ce travail, nous nous sommes aperçus que l’accès aux données ayant trait aux résultats électoraux, pourtant centrales dans une démocratie, était très difficile. Notre étude a permis de combler au moins partiellement ce manque, tout en fournissant aux citoyens des éléments factuels permettant d’équilibrer les discours idéologiques. À l’heure actuelle, nous avons d’autres projets similaires en préparation autour de la valorisation de l’activité politique et administrative, mais également sur le lobbying ou les élections.

De manière générale, notre expérience nous a montré qu’en matière de données publiques, nous consacrions plus de temps à aller chercher les données qu’à créer les interfaces pour les diffuser. En ce qui concerne NosDeputes.fr, par exemple, nous avons consacré les trois quarts du temps de travail à la création et l’alimentation de la base de données.

Quelles initiatives existent déjà dans le domaine de l’accès aux données publiques ?

Tout d’abord, les données publiques sont des éléments importants pour la prise de décision politique. Elles sont collectées et employées dans le cadre de nombreux travaux de l’État et des collectivités territoriales. Il semblerait donc naturel qu’elles soient mises à la disposition de chacun afin d’être réutilisées pour de nouveaux emplois.

C’est en tout cas la décision qui a été prise dans certaines démocraties occidentales. Les premiers ont sans doute été les États-Unis avec l’ouverture du site data.gov par le président Barack Obama au début de son mandat. Le Royaume-Uni a rapidement suivi, épaulé par l’inventeur du Web, Tim Berners-Lee. Ce sont ces deux initiatives qui ont popularisé le terme anglo-saxon Open Data : la mise à disposition, libre et gratuite, des données publiques.

En France, les premières initiatives sont venues du milieu de l’entreprise d’une part avec Data Publica, et des citoyens d’autre part avec NosDonnees.fr. Ces catalogues cherchent à recenser et à rendre visibles les données déjà accessibles sur Internet ainsi qu’à pointer les données manquantes ou publiées sous des formes ou des conditions fermées empêchant leur réutilisation par le plus grand nombre. Si l’État essaie de combler son retard grâce au projet ÉtaLab, chargé de la création d’un portail gouvernemental des données publiques, certaines collectivités territoriales pionnières, comme Rennes ou Paris plus récemment, n’ont pas attendu et se sont déjà lancées dans l’expérience.

Malgré l’ordonnance du 6 juin 2005, transposant la directive 2003/98/CE du Parlement européen et du Conseil de l’Union européenne qui a reconnu le droit à la réutilisation des données publiques, et les expériences existantes, nous n’observons pas de réutilisation massive des données publiques en France ?

Tout à fait, leur accès n’est pas massif et généralisé. Tout d’abord, cela s’explique par l’absence de culture d’accès aux données publiques au sein des institutions malgré la loi de 1978 qui le prévoit. En matière de réutilisation des données publiques, le réflexe de certaines administrations est plutôt celui du repli que de l’encouragement de la co-production. La base de données des prix de l’essence en est un très bon exemple.

La Direction générale de la concurrence, de la consommation et de la répression des fraudes (DGCCRF) s’apercevant de problèmes de concurrence liés au prix de l’essence, a souhaité que le prix à la pompe soit accessible à tous depuis Internet.

Malheureusement, l’interface était sommaire et peu adaptée aux usages des automobilistes : il n’était, par exemple, pas possible d’utiliser le site sur son téléphone portable alors que c’est en voiture que l’on a le plus besoin de la consulter. Un certain nombre de sites ont donc réutilisé ces données et les ont intégrées à leurs applications, notamment mobiles. Les gestionnaires s’en sont aperçus. Plutôt que de féliciter ces réutilisateurs de produire, sans coût pour l’administration, des applications qui allaient dans le sens visé par la DGCCRF, à savoir diffuser l’information économique sur le prix du pétrole pour éclairer le consommateur, Bercy a fait fermer certains de ces sites en posant des limites juridiques et en restreignant les utilisations techniques possibles du site. Désormais, toute réutilisation des données par un service gratuit ou non donne lieu à une redevance de 38 500 euros, ce qui revient à faire payer tous les usages rendus publics qu’ils soient marchands ou non marchands1. L’objectif premier de cette initiative de meilleur accès à l’information des citoyens est ainsi totalement perdu : seules les grandes entreprises ont désormais accès à la réutilisation de ces données devenues totalement inaccessibles aux citoyens qui souhaiteraient créer un service non lucratif autour de ces données.

Comme l’illustre cet exemple, les principaux réutilisateurs des données publiques après les acteurs publics sont, à l’heure actuelle, essentiellement des entreprises privées. Les coûts d’accès aux données sont très importants : les identifier nécessite du temps et, quand elles sont mises à disposition, elles le sont très rarement gratuitement et il faut parfois négocier cet accès. Les secteurs citoyens et associatifs sont donc défavorisés par rapport aux secteurs privé et public. Cette situation crée des monopoles de fait parmi les réutilisateurs des données et freine donc sérieusement l’émergence de nouveaux usages. À l’heure actuelle, de nombreux acteurs ne réutilisent les données qu’en vue de les revendre, ce n’est pourtant pas leur vocation ! Elles pourraient plutôt permettre d’éclairer des décisions publiques et privées et valoriser l’activité de l’État.

De plus, il ne faut pas que les administrations sous-estiment le pouvoir co-productif de la mise à disposition des données publiques : en général, les données publiques récupérées sont enrichies et permettent d’apporter une sorte de retour d’expertise aux institutions. En publiant ses données, le service public peut donc s’équiper pour en améliorer la qualité.

Le dernier rapport sur la Révision générale des politiques publiques de juin 2010 a fait état du potentiel de croissance économique que représentaient les données publiques. Qu’en pensez-vous ? Un accès gratuit pourrait-il engendrer le même niveau de croissance ?

Plusieurs études internationales se sont penchées sur le sujet2. Elles montrent que la moins bonne solution économique est de poser des barrières financières entravant l’accès aux données publiques. En effet, elles réduisent les usages potentiels des réutilisateurs et renforcent sa concentration aboutissant à la réduction des possibilités d’innovation. Or, l’objectif premier de l’exploitation des données publiques consiste à apporter une information innovante et précise à un acteur, qu’il soit décideur public, entrepreneur ou citoyen. Caractérisés par une culture de séparation entre l’administration et les commerçants – il y a très peu d’établissements publics à caractère industriel et commercial dans les pays anglo-saxons –, la Grande-Bretagne et les États-Unis ont fait le choix de mettre à disposition un maximum de données publiques, librement accessibles, c’est-à-dire sans coût de licence, ni de restriction à l’usage.

Au Danemark, une étude sur un programme de mise à disposition gratuite de données 3 a montré que l’opération avait permis la création de 90 emplois, de multiplier par dix le chiffre d’affaires de la filière des réutilisateurs, tout en divisant par cinq le coût unitaire de création des données, et de réduire de 40 % les frais de fonctionnement des services publics impliqués. Une économie pour les institutions publiques de 50 000 euros par an a même été réalisée ! De même, en Catalogne, la libération de données publiques a engendré un bénéfice annuel de plusieurs millions d’euros ainsi que des économies de 500 heures de travail mensuelles4.

Ces différents exemples montrent que la gratuité de l’accès aux données ne s’oppose pas à l’émergence d’une activité économique florissante du secteur privé, fondée sur la création de services associés aux données publiques sans surcoût pour le secteur public. Ainsi, l’innovation technologique est favorisée par un plus grand accès à ces données. Des données ouvertes donnent lieu à l’apparition d’outils informatiques qui facilitent leur traitement ; les entreprises démontrent leur savoir-faire et leur expertise à partir d’outils de traitement voire d’analyse de données, ou vendent des services plus classiques, par exemple, du conseil d’aide à la décision. À Paris, l’initiative de portail d’accès aux données publiques a déjà suscité plusieurs réutilisations, par des citoyens mais également des entreprises ayant par exemple utilisé les données mises en ligne pour valoriser leur savoir-faire en termes de traitement de l’information.

Quels types de frais les licences visent-elles à couvrir ?

Les articles 4 et 15 de la loi de 1978 stipulent précisément les motifs possibles de la mise en place de frais de licences : outre les coûts de reproduction ou éventuellement d’anonymisation, ces frais n’ont légalement pas de visée commerciale car ils ne peuvent excéder les coûts de production de la donnée cumulés à ceux engendrés par l’administration de ces licences. Mais, dans la réalité, on remarque que lorsque des frais de licences sont mis en place, ils arrivent à couvrir tout au plus les processus mis en place pour vendre les données. Une étude a démontré qu’en Angleterre, avant d’être gratuites, les données étaient achetées à 75 % par des acteurs du secteur public5. In fine, c’est le contribuable qui paie indirectement pour des données publiques auxquelles il n’a pas accès.

Regards Citoyens met à disposition gratuitement et, sous des conditions libres de réutilisation, toutes les données publiques que nous utilisons pour nos projets. Ce coût de mise à disposition est très faible, il est compris dans le coût d’hébergement de nos outils et de nos données, soit 150 euros par mois. Les processus sont sûrement plus lourds dans les institutions publiques mais la différence montre tout de même qu’il y a des abus et que des pratiques plus efficaces pourraient être mises en place. Ainsi dans les pays anglo-saxons, les plateformes de publication de données ont été éclatées et décentralisées, pour être au plus proche des services producteurs, et cela a permis de réduire les coûts. Pour autant, il existe dans ces pays une plateforme centralisée référençant les jeux de données publiés localement. Ce sont les sites data.gov ou data.gov.uk.

Concernant les licences, il est important qu’elles n’entravent pas la réutilisation, en excluant par exemple les usages commerciaux. En effet, la restriction à des usages non commerciaux n’est juridiquement pas définie et a donc tendance à décourager les réutilisateurs, y compris bénévoles. Un citoyen éditant un site qui utilise des données publiques et insère de la publicité pour couvrir ses frais d’hébergement ou un journaliste s’appuyant sur des données publiques dans son article font-ils un usage commercial des données publiques ? Une entreprise de cartographie qui met gratuitement en ligne des informations publiques fait-elle un usage non commercial de ces données ? En réalité, faire un distinguo entre une réutilisation commerciale ou un usage non commercial n’est pas pertinent. En effet, le monde de la donnée est dynamisé par la coproduction : un citoyen peut enrichir une donnée publique qui sera potentiellement réutilisée par une entreprise et inversement. La différenciation de ces usages, en plus d’être très floue juridiquement, induit une discrimination et le non-partage de ces données avec des tiers.

Non seulement de telles restrictions empêchent donc les institutions publiques, les citoyens et les entreprises de travailler ensemble, mais elles rendent les données incompatibles avec des projets non lucratifs comme Wikipedia ou OpenStreetMap qui ont pourtant démontré leur efficacité en termes de diffusion de l’information publique sur Internet.

En nous inspirant de ces projets, nous pensons que la seule restriction juridiquement viable est d’imposer une obligation de coproduction : lorsque le réutilisateur mélange les données publiques avec d’autres données, il doit mettre à disposition de tous les données résultantes. Cette solution ouvre la possibilité de demander une contribution financière aux réutilisateurs qui ne souhaitent pas contribuer à l’amélioration des données et permet de s’assurer que ces dernières ne sont pas dénaturées comme le demande la loi. La ville de Paris a fait ce choix d’une licence co-productive pour son projet « Open Data Paris ».

Ces frais ne peuvent-ils pas rémunérer les auteurs des données publiques ?

La majorité des données publiques ne sont pas soumises au droit d’auteur. Le droit d’auteur protège des œuvres originales de l’esprit dont on peut déterminer l’auteur6. Les données étant des « descriptions élémentaires, souvent codées, d’une réalité », c’est-à-dire des éléments chiffrés représentant une réalité, elles ne jouissent pas du statut juridique d’œuvre originale. En revanche, leurs producteurs se voient protégés par une autre notion juridique : le droit sui generis des bases de données qui reconnaît l’investissement lié à la création et à la structuration de l’information.

Une confusion entre droit d’auteur et données publiques peut tout de même s’opérer à la lecture de la loi de 1978. En effet, si elle garantit l’accès et la réutilisation des données publiques, elle prévoit tout de même quelques exceptions, notamment lorsque ces données sont contenues dans un document soumis au droit d’auteur (typiquement, les rapports produits par des acteurs privés) ou lorsqu’il s’agit de données patrimoniales (base de données bibliographiques par exemple). Ces points vont sans doute évoluer dans les prochains mois avec la révision de la directive Public sector information de 2003, transposée en droit français en 2005.

Pour les données publiques n’étant pas soumises au droit d’auteur, on ne saurait donc évoquer la rémunération des auteurs pour justifier la mise en place de barrières financières. Ce qu’il ne faut pas oublier, c’est que ces données sont nécessaires au bon fonctionnement de l’État : qu’elles soient mises à disposition ou non, elles sont produites et diffusées au sein des institutions publiques. Le prix des données est donc souvent survalorisé pour justifier le paiement de frais de mise à disposition. Par exemple, le coût de la licence pour la mise à disposition technique par la Direction de l’information légale et administrative (DILA) de la base de données des « questions écrites » des parlementaires, pour une réutilisation marchande ou non, s’élève à 6 480 euros par an7. Pour NosDeputes.fr, deux mois de travail nous ont permis de créer des outils qui rendent disponibles gratuitement et à tous des données comparables mises à jour toutes les quatre heures et enrichies des rapports parlementaires, des amendements, des discussions, etc.

Certaines expériences à l’étranger ont témoigné des échecs rencontrés par des portails gouvernementaux. Selon vous, quels seraient les facteurs de succès en la matière ?

Il faut que les citoyens se réapproprient les données publiques. En Angleterre, un travail a été mené par les Gouvernements successifs avec la société civile pour ouvrir l’accès aux données publiques. Ainsi, cela fonctionne d’autant mieux que des mouvements citoyens accompagnent les décideurs publics. En Grande-Bretagne, par exemple, le fondateur du web, Tim Berners-Lee, a aidé et poussé le Gouvernement vers l’ouverture d’un portail de données publiques. La communauté citoyenne y est encore peu développée mais l’Australie continue ses efforts et a ouvert en mars 2010 sa plateforme data.gov.au qui va certainement voir naître de nombreuses réutilisations innovantes et enrichissantes.

En ce qui concerne le projet de portail en France, la mission EtaLab, chargée de la création d’un portail interministériel des données publiques, a récemment été mise en place et commence ses consultations8. L’ingrédient important dans ces projets est l’implication des citoyens dans la réutilisation des données : nous nous sommes opposés à l’idée de création de barrières financières pour l’accès aux données publiques poussée par l’Agence du patrimoine immatériel de l’État (APIE).

L’animation de cette communauté peut être favorisée par des acteurs extérieurs. Ainsi, en France, deux répertoires en ligne de données publiques ont été créés : DataPublica, créé par trois start-up françaises (Araok, Nexedi et Talend), et notre initiative, NosDonnees.fr, qui vise à référencer toutes les données librement accessibles sans restrictions financières, ou d’usage. Ainsi, chacun peut librement accéder aux données publiques déjà référencées pour en tirer de nouvelles applications innovantes sans risque légal ou financier.
Un autre facteur essentiel de succès est l’accompagnement des réutilisateurs en offrant, comme nous le faisons modestement sur NosDonnees.fr, la possibilité de pouvoir contribuer, échanger sur les données et indiquer celles auxquelles les utilisateurs souhaiteraient avoir accès.

Que voulez-vous dire par « restrictions d’usage » ?

Il existe deux types de restrictions d’usage. La première consiste, comme nous l’avons évoqué, à imposer des restrictions juridiques à la réutilisation des données pour des usages dits « commerciaux ». La seconde est liée au format utilisé pour la mise à disposition des données. L’idée de la libération des données publiques est de les rendre accessibles à tous quels que soient le matériel et les logiciels informatiques des usagers. Pour garantir cet accès à tous de l’information publique, il faut donc utiliser des formats dont la recette est publique et non la propriété exclusive d’un seul acteur. Les formats dont la recette est disponible à tous sont appelés « formats ouverts ». Il faut savoir que les .doc ou les .xls ne sont pas des « formats ouverts » mais des « formats propriétaires » : l’entreprise américaine détentrice de cette recette peut potentiellement interdire l’usage de ces fichiers aux acteurs n’utilisant pas ses logiciels. Ainsi, un format de fichier propriétaire peut rendre difficile la lecture et la réutilisation des données qu’il contient et créer une discrimination entre les utilisateurs.

Enfin, il faut noter qu’il existe par ailleurs des restrictions à la concurrence : un rapport de la Commission européenne en avait recensé cinq cas en France9. Ainsi, certaines entreprises privées ayant obtenu des données publiques sont parvenues à s’assurer l’exclusivité de l’accès à ces données. La rareté des données augmente leur prix mais affecte également leur qualité : la possibilité de correction d’erreurs potentielles s’accroît avec la quantité d’utilisateurs. Au vu du grand nombre d’informations qu’elles contiennent, les bases de données comportent la plupart du temps des inexactitudes dues par exemple à des inversions lors de la saisie ou à des erreurs de calculs. Toutes ces restrictions peuvent ainsi poser de sérieux freins, tant à l’usage innovant des données, qu’à la qualité de celles-ci.

Références

1 : Arrêté du 22 janvier 2009 fixant le montant des rémunérations dues en contrepartie de la cession des licences de réutilisation de données de la base de données informatique du ministère de l’Économie, de l’Industrie et de l’Emploi relative aux prix des carburants. Le montant annuel de la rémunération à acquitter en contrepartie de la cession des licences est de 5 000 euros pour une licence de réutilisation à usage interne (pour les propres besoins du détenteur de la licence ou de l’entité juridique qu’il représente) commercial ou non.

2 : Rufus Pollock, The Economics of Public Sector Information, Cambridge Working Papers from Faculty of Economics, novembre 2008, University of Cambridge. Quelques études et enquêtes sur la question sont répertoriées sur le site wiki.linkedgov.org.

3 : The value of Danish address data : Social benefits from the 2002 agreement on procuring address data

4 : Étude de l’impact socio-économique de l’infrastructure de données géographiques dans la région de Catalogne

5 : Francis Maude, Minister for the Cabinet Office, 19 novembre 2010, Université de London Union, Open governement data conference 2010.

6 : Le principe de la protection du droit d’auteur est posé par l’article L. 111-1 du Code de la propriété intellectuelle qui dispose que « l’auteur d’une œuvre de l’esprit jouit sur cette œuvre, du seul fait de sa création, d’un droit de propriété incorporelle exclusif et opposable à tous. Ce droit comporte des attributs d’ordre intellectuel et moral ainsi que des attributs d’ordre patrimonial ».

7 : Les tarifs des bases de données du Journal Officiel. Cette base de données est librement consultable et sa réutilisation donne lieu à une licence si la masse de données concernée est substantielle et sa réutilisation récurrente. Ainsi l’insertion de citations ponctuelles dont la source serait citée dans le cadre d’un article, par exemple, n’entre pas dans ce cas de figure. En revanche, une utilisation massive et systématique de rapports ou productions de l’Assemblée nationale pourrait être concernée.

8 : Décret n° 2011-194 du 21 février 2011 portant création d’une mission « Étalab » chargée de la création d’un portail unique interministériel des données publiques (NDLR).

9 : Virginie Boillet et Louise Guerre, PSI Re-Use: Identification of potential exclusive agreements – France Report, 02/04/2010


Une réponse à “Données publiques : pour des décisions publiques éclairées”

  1. […] Données publiques : pour des décisions publiques éclairées » par Regards […]

Laisser un commentaire

*

Regards Citoyens est fièrement propulsé par WordPress

Contenu sous Creative Commons License sauf mention contraire.

Mentions légales - Contact Presse