L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Quelles voies emprunter pour y arriver — sans créer un casier judiciaire bis ? Faut-il tout anonymiser ou juste pseudonymiser ?
[NB : l’open data des décisions judiciaires de première et deuxième instance a finalement été réalisé — partiellement en réalité : de l’ordre de 70% pour les CA — en 2022 pour l’appel et fin 2023-2025 pour les jugements de première instance.
Mais bien qu’inséré en 2016 dans la loi République numérique et poussé par les legaltech, il n’a été réalisé que 10 ans après, comme annoncé — et expliqué — ici.]
Roseline Letteron, professeur de droit public à l’Université Paris-Sorbonne, a publié le 28 novembre 2016 sur son blog Liberté Libertés Chéries le billet suivant : Le mythe de la liberté d’accès aux décisions de justice. NextINpact, écrivant sur les futurs décrets d’application de la loi Numérique, titraient quant à eux le 29 décembre 2016 : Loi Numérique : la mise en Open Data des décisions de justice prendra "plusieurs années".
Avec le développement ces dernières années de l’open data [1], le thème de l’imperfection de la diffusion des décisions de justice est devenu une "tarte à la crème". Répondre à ces deux articles me donne l’occasion de l’analyser ici en détail.
Sommaire
Précisions à apporter au billet du professeur Letteron
Pseudonymisation : un nouveau mot. Anonymisation : un nouveau sens
Pourquoi l'open data de la jurisprudence du fond restera longtemps en "stand-by"
La loi Lemaire et les moyens nécessaires
Pseudonymiser et anonymiser : un travail énorme et difficile
La responsabilité juridique des pouvoirs publics
La délicate question des décisions pénales et des tribunaux de commerce
Un calendrier prévisionnel mais incertain
Conclusion - Mission impossible pour les pouvoirs publics ? - Et les acteurs privés ?
Précisions à apporter au billet du professeur Letteron
J’aimerais déjà apporter plusieurs précisions au billet du professeur Letteron :
– Sur l’application de la directive "PSI" aux décisions de justice
A propos de la directive 2003/98 du 17 novembre 2003 concernant la réutilisation des informations du secteur public (dite "PSI") qui mentionne que son champ d’application s’étend aux « documents [...] de la filière judiciaire [2] et de la filière administrative », ce qui justifie l’open data de *toutes* les décisions de justice judiciaire, il faut apporter plusieurs précisions :
- cette mention est dans le considérant 16 de la directive. Elle n’est pas affirmée par un article de celle-ci
- de surcroît, ce n’est que tout récemment, dans le débat autour du projet de loi Lemaire pour une République numérique, que ce considérant a commencé à être invoqué
- pour bien faire comprendre l’importance de cette précision : ce considérant tend à dire que les décisions de justice sont des données publiques *réutilisables*. Or, jusqu’ici, le droit français classait la jurisprudence dans des données non administratives (séparation des pouvoirs ...) et donc, ipso facto, non réutilisables au titre du droit français résultant de la transposition de la directive.
Seule la CADA, dans un avis peu connu Ministre de la justice n° 20103040 du 27 juillet 2010 que Mme Letteron cite, avait jusqu’ici tenté d’aller contre cette position restrictive, sans d’ailleurs évoquer le considérant 16 mais l’article 11-3 de la loi n° 72-626 du 5 juillet 1972 selon lequel « les tiers sont en droit de se faire délivrer copie des jugements prononcés publiquement ».
A l’origine de cette position restrictive sur la réutilisabilité de la jurisprudence au titre de la directive, il y avait la façon très française de transposer la directive PSI initiale, en associant étroitement, par la rédaction de la "loi CADA" du 17 juillet 1978, communicabilité des documents administratifs et réutilisabilité des informations (données) publiques. Pour simplifier : document administratif = document communicable = document réutilisable. Donc, selon cette conception peu partagée par les autres Etats membres de l’UE, si des données publiques étaient contenues dans un document non administratif, elles n’étaient pas réutilisables ...
La saisine de la CADA réagissait probablement contre l’arrêt Bertin du Conseil d’Etat rendu seulement deux mois et demi mois auparavant et d’ailleurs cité dans l’avis (CE n° 303168 du 7 mai 2010) : en définissant de manière extensive la notion de document juridictionnel et en affirmant sa non-communicabilité, il pouvait menacer la réutilisation de la jurisprudence par les licences Legifrance, tant gratuite pour une réutilisation ponctuelle, que payantes, en place à cette époque depuis 2002.
– Accès à JuriCA
Selon Mme Letteron :
« Les décisions des cours d’appel figurent dans une base de données gérée par la Cour de cassation, JuriCA, souvent présentée comme "un outil de communication et de recherche" indispensable à la "construction des savoirs juridique et sociologique. C’est sans doute vrai pour les magistrats qui bénéficient, heureusement, d’un accès direct et gratuit par l’intranet Justice. Pour les autres, leur curiosité scientifique n’est pas suffisante pour justifier un accès à JuriCA. Il faut aussi de l’argent, et même beaucoup d’argent. »
Pourtant, la curiosité scientifique, si elle émane d’une équipe ou d’un chercheur universitaire, peut être suffisante pour justifier un accès *gratuit* à JuriCA et ce, depuis au moins 2009, grâce aux conventions de recherche entre équipes de master et Cour de cassation [3].
– La position de la CADA sur les décisions de justice
Le professeur Letteron écrit :
« Dans un conseil du 27 juillet 2010, [la CADA] s’estime compétente pour rendre un avis sur toute décision défavorable en matière de réutilisation des informations publiques contenues dans des jugements ou arrêts judiciaires. En revanche, dans un avis du 28 avril 2016, elle déclare irrecevable une demande dirigée contre le refus opposé par la Cour de cassation à un accès aux décisions contenues dans JuriCA, en vue de leur réutilisation. Celles-ci ne sont pas considérées comme des "documents administratifs" au sens de la loi du 17 juillet 1978. Autrement dit, la CADA est incompétente pour se prononcer sur l’accès aux décisions de justice [...] »
Le refus de la CADA de reconnaître le caractère de document administratif — donc communicable — aux décisions de justice ne date pas de 2010 : il remonte au minimum à 2005 [4].
Quant à son avis du 27 juillet 2010, comme nous l’avons vu plus haut, il s’agit selon toute probabilité, vu le contexte, d’une décision d’exception au sens premier du terme, destinée à protéger les licences Legifrance potentiellement menacées par l’arrêt Bertin précité.
Ajoutons enfin que la CADA ne rend que des avis — c’est le Conseil d’Etat qui tranche. Et justement, jusqu’à aujourd’hui, le Conseil d’Etat ne s’est jamais prononcé sur la réutilisation de décisions de justice en tant que données publiques, uniquement sur la communicabilité de documents juridictionnels qui n’étaient pas des décisions de justice
– La loi Lemaire pour une République numérique du 7 octobre 2016 est allée un peu plus loin que l’état du droit décrit dans le billet du professeur Letteron : ses articles 20 et 21 créent un principe de mise à disposition gratuite de toutes les décisions de justice, administrative comme judiciaire, et de tout niveau (de la 1ère instance aux cours suprêmes).
– Mme Letteron félicite Doctrine.fr pour son action pro-open data. lI est toutefois difficile de penser que cette action pro-open data soit totalement désintéressée. L’intérêt des legal techs françaises dans le débat actuel est en partie d’ordre financier : si l’Etat se met à diffuser même les jugements des tribunaux et paye pour ces traitements de données, les barrières d’entrée sur ce marché tomberont et les entrants sur le marché n’auront plus à faire de lourds investissements. Il n’est pas question que d’open data ici, il est aussi question de concurrence.
Pseudonymisation : un nouveau mot. Anonymisation : un nouveau sens
Dans ce billet, nous utiliserons le terme anonymisation dans son nouveau sens fort d’impossibilité de réidentification des personnes physiques. Le simple remplacement des noms par des lettres porte désormais le nom de pseudonymisation.
Pour deux raisons :
- parce que ce qu’on appellait communément "anonymisation" (remplacer des noms par des lettres) n’assure qu’un anonymat très relatif : bien souvent les circonstances, les faits relatés dans la décision de justice permettent par recoupement de retrouver l’identité des parties. Pire, les pseudonymes ne sont pas supprimés selon les règles actuellement utilisées [5] et les noms de personnes dans les noms de sociétés non plus [6]. Pour être plus précis, on utilise donc désormais le terme de pseudonymisation
- l’autre raison de ce changement de vocabulaire et la plus importante, est le Règlement général de protection des données du 27 avril 2016 (RGPD) [7] qui s’appliquera à partir de mars 2018. Selon le RGPD [8], l’anonymisation consiste à empêcher une réidentification selon l’état actuel de l’art. Si une décision de justice laisse possible une réidentification indirecte, alors elle n’est pas réellement, véritablement anonymisée. Et si elle n’est pas anonymisée, alors elle est soumise au droit des données personnelles institué par le RGPD et doit donner lieu à déclaration, être soumise au consentement des personnes physiques citées etc., traitement lourd et impraticable dans le cadre de l’Open data.
Autrement dit et en une phrase, le RGPD exige, pour ne pas appliquer toute la rigueur du droit des données personnelles, que la base soit anonymisée au sens fort où, en l’état actuel de l’art, la réidentification est impossible. On peut contester cette position, qui est la nôtre et s’inspire de l’esprit du RGPD, principalement en jouant sur la lettre : voir le débat dans les commentaires en bas de page.
Pourquoi l’open data de la jurisprudence du fond restera longtemps en "stand-by"
Maintenant, sur le débat de fond :
– Si l’on tient pour le principe de transparence et pour l’objectif de diffusion du droit, la mise à disposition gratuite de toute la jurisprudence au format numérique est LA position, dans l’idéal.
– Mais même dans l’action publique, le nerf de la guerre (je n’ai pas dit le principe de toute chose) reste l’argent. Surtout en ces temps de recettes fiscales — et donc de budgets publics — en baisse.
Les montants disponibles à la DILA, au Ministère de la Justice, à la Cour de cassation et dans les juridictions du fond pour structurer, traiter, pseudonymiser (a fortiori anonymiser) et diffuser les arrêts des cours d’appel (base Jurica) sont limités (cela dit, ces montants étaient bien plus limités avant l’arrivée de Legifrance). C’est d’abord pour cette raison que les éditeurs ont longtemps eu de facto le monopole de la diffusion de la jurisprudence : leurs clients avaient les budgets pour financer indirectement ce travail.
La loi Lemaire et les moyens nécessaires
La loi du 7 octobre 2016 pour une République numérique parle d’open data des décisions du fond (articles 20 et 21).
Mais les moyens nécessaires, tant techniques (ils sont aujourd’hui connus des experts : XMLisation de tous les documents avec DTD ou schéma XML, rénovation massive du parc informatique et augmentation très importante du débit des connexions intranet et internet) que humains (augmenter les effectifs des greffiers, aujourd’hui débordés), et également financiers, ne sont pas du ressort de cette loi — ni d’aucune autre d’ailleurs :
– En réalité, aujourd’hui, une décision facile à structurer (pour qu’elle soit aisée à mettre en base de données) et à pseudonymiser serait, idéalement, un fichier XML balisé avec une centaine de champs minimum [9] et doté de liens vers d’autres fichiers XML. C’est difficile mais réaliste : depuis 2010, le format XML est utilisé par le système PACER d’accès aux décisions de justice des cours fédérales des État-Unis [10]. Produire de la jurisprudence judiciaire de 1ère et 2ème instance structurée supposerait donc :
- élaboration par les services informatiques de la juridiction judiciaire suprême et ceux de la chancellerie, avec les magistrats, d’une DTD ou d’un schéma XML (il existe une première version pour les arrêts de la Cour de cassation) et sa validation par le ministère
- des moyens en infrastructure (connexion, matériel, logiciels) pour l’instant indisponibles en juridiction
- une révolution (très contraignante) dans la façon pour les magistrats de rédiger une décision.
– Pouvoir gérer les volumes en cause : si les juridictions administratives ne rendent "que" 230 000 décisions par an, les juridictions judiciaires en produisent, elles, près de 3,8 millions par an dont 1,2 million en matière pénale ... Le tout avec 32 000 ETP [11] seulement en greffiers et magistrats [12].
– Numériser les décisions de première instance. Ronan Guerlot, adjoint au directeur du Service de documentation, des études et du rapport (SDER) de la Cour de cassation [...], cité par Libération, estime qu’il faudra patienter quatre à cinq ans une fois que le décret d’application de la loi sera entré en vigueur pour informatiser toutes les décisions de justice. « Le plus difficile sera de faire remonter les décisions de première instance du TGI. Nous disposons souvent de minutes [original d’un acte de justice, ndlr] papier, il faudra donc créer des outils informatiques », explique-t-il. En revanche, pour la justice administrative, c’est déjà prêt : les décisions des cours administratives d’appel sont déjà sur Legifrance et celles des tribunaux administratifs sont déjà en base de données — mais cette dernière n’est pas accessible au public et n’a in fine pas été mise en vente aux éditeurs.
– Les institutions, très logiquement, étaient axées sur les juridictions suprêmes et non sur les cours d’appel et les tribunaux. Sans compter un refus très latin de la "case law". Praticiens et éditeurs ont toujours su, eux, l’importance de la jurisprudence et particulièrement des arrêts d’appel. Pour autant, et comme le souligne le premier commentaire sous l’article de NextINpact (commentaire laissé par un avocat, de toute évidence), la grande masse des décisions des tribunaux est et restera « inintéressante au possible » [13].
Pseudonymiser et anonymiser : un travail énorme et difficile
Sur l’obligation de pseudonymisation [14] (on ne parle plus d’anonymisation mais de pseudonymisation, voir en introduction de ce billet) avant de publier une décision de justice sur Internet :
– Jurisprudence administrative : peu ou pas de problème pour pseudonymiser (replacer les noms par des lettres) les décisions des juridictions administratives : les noms de parties dans leurs décisions sont balisés/taggués dans le XML.
– Jurisprudence judiciaire :
- le Service de documentation, des études et du rapport de la Cour de cassation (SDER) doit reprendre en 2017 les tâches confiées jusque là à la DILA [15]
- il faut distinguer ici trois, voire quatre chantiers d’anonymisation : 1. celui des arrêts de la Cour de cassation (25 600 affaires terminées en 2015) — déjà réglé, pour les inédits (base CASS) comme pour les publiés au Bulletin (base INCA) —, 2. celui des arrêts civils de cour d’appel (base Jurica) (236 000 décisions en 2015), 3. celui des jugements des tribunaux civils (2,55 millions sans compter les tribunaux de commerce [16], mais en incluant TGI, TI, juridictions de proximité, TASS et Conseils de prud’hommes) et 4. celui de la jurisprudence pénale du fond [17] (1,2 million) [18].
En effet, les décisions de la Cour sont la plupart du temps brèves et sobrement motivées, donc relativement faciles et rapides à anonymiser. Les arrêts d’appel, eux, sont nettement plus prolixes et donc plus complexes et plus longs à anonymiser. Et la masse des décisions de civiles de première instance, même si elles sont souvent brèves et très sobrement motivées comme bizarrement celles de la Cour de cassation (mais pas pour les mêmes raisons), est écrasante. Enfin, les décisions du fond en matière pénale, jusqu’ici diffusées ni par Legifrance ni par JuriCA, nécessitent du fait même de la matière plus de précautions, même si elles sont souvent peu ou pas motivées - en première instance, il restera, une fois celui-ci numérisé, à anonymiser l’énorme stock purement papier évoqué par M. Guerlot du SDER (voir supra).
– L’absence de schéma ou DTD XML rend l’anonymisation extrêmement difficile. Plus encore sur les décisions judiciaires dont la structure et le langage sont beaucoup moins systématiques et réguliers qu’en jurisprudence administrative.
– Pseudonymiser, en effet, ne se limite pas à faire du Rechercher Remplacer sur les seuls noms de personne contrairement à ce qu’on pourrait croire à première vue [19]. C’est beaucoup plus compliqué que ça.
D’abord parce que les logiciels ont souvent du mal à traiter de nombreux cas. Autrement dit, « il est extrêmement difficile d’avoir plus de 90% des décisions parfaitement pseudo-anonymisées, sauf à employer des moyens humains très importants pour la relecture » (dixit Michael Benesty, fiscaliste, spécialiste et praticien du machine learning en droit avec son site Supra Legem [20]) :
- deux exemples classiques en une seule proposition (fictive) : « le président de la société Robert, M. Franck Robert ». Certains logiciels experts vont anonymiser la "société Robert" en "société X..." parce que Robert est un prénom alors que les noms de personnes morales ne se pseudonymisent pas [21], d’autres vont laisser le nom de famille du président intact parce qu’il s’écrit comme un prénom, aboutissant ainsi à laisser intact les nom et prénom d’une partie personne physique [22]
- autre exemple, fréquent lui aussi (noms fictifs) : « la caissière Jeanine Plombeit, employée à la supérette Zaz dans la commune de Tiersset, a été licenciée pour faute grave le 14 juin 2015 ». Il se trouve que la commune ne compte que 500 âmes : même en pseudonymisant le nom de famille, la combinaison de son nom, du nom de la commune et de la raison sociale de son ex-employeur indiquera à tous les habitants des alentours, y compris les employeurs potentiels de Mme Plombeit, de qui il s’agit et ce qui lui est arrivé. Il va donc falloir, exceptionnellement, anonymiser le prénom et la commune : ce n’est pas la recommandation de la CNIL qui le l’exige mais le respect de l’esprit de la loi Informatique et libertés et surtout de la lettre du RGPD, texte européen ultérieur à la loi I&L
- on consultera d’autres types de difficultés dans le billet de Michael Benesty (Supra Legem) intitulé Techniques d’anonymisation (pseudonymisation) des décisions de justice et leurs limites [23]
- même la toute dernière technologie, autrement dit le machine learning (ML), échoue, de l’aveu même de M. Benesty, à atteindre un taux de succès suffisant. Pour le citer [24] : « Même en affichant un taux de 96% de mentions correctement identifiées, on se retrouve avec un taux de décisions effectivement (c’est-à-dire complètement) anonymisées d’à peine plus de 60% ! [...] On voit bien que l’approche anonymisation à 100% via le machine learning (c’est-à-dire sans aucune intervention humaine) se heurte à un plafond de verre. »
On retombe donc sur l’importance de la vérification humaine. Mais avec 3,8 millions de décisions par an à vérifier, il est évident que le coût en ETP d’un contrôle systématique sera hors de portée.
Encore n’a-t-on parlé ici que de pseudonymisation "classique". Avec la loi République numérique et le RGPD, il faut aller plus loin. Comme nous l’avons vu en introduction, le règlement général de protection des données, encore plus exigeant que la loi République numérique, s’il est appliqué conformément à son esprit (la lettre, c’est différent, voir commentaire infra de Bruno Mathis), exige une véritable anonymisation, c’est-à-dire une impossibilité quasi-impossibilité de ré-identification, en tout cas de réidentification massive ou facile (ce qui suppose de suivre l’état de la technique ...) [25]. À cet esprit du RGPD, il faut ajouter le lobbying des magistrats [26] et des greffiers [27] pour être également anonymisés et la position du Sénat, clairement défavorable à l’open data en général et à l’open data judiciaire en particulier [28]. Il faudrait donc repérer et supprimer les mentions de métier/profession, presque tous les noms de lieu et tous les passages permettant une ré-identification par recoupement avec d’autres informations et bases de données ... Autant dire qu’"on n’est pas arrivé".
La responsabilité juridique des pouvoirs publics
Cette exigence de véritable anonymisation, au sens fort du terme, est renforcée par la responsabilité des pouvoirs publics.
Selon M. Benesty, avec la loi Lemaire, la responsabilité de l’administration pourrait être engagée pour chaque décision de justice mal anonymisée. En effet, la loi Lemaire prévoit qu’en plus de la pseudonymisation, le risque de réidentification devra être pris en compte. Très exactement, selon le texte : « [les] jugements sont mis à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées. Cette mise à disposition du public est précédée d’une analyse du risque de ré-identification des personnes ». M. Benesty propose une vérification humaine dans les matières "sensibles", telle que sélectionnées par la CNIL [29].
Confirmation, sur la base principalement de la loi Informatique et libertés (donc sans même invoquer la loi Lemaire), par le TA de Paris, qui condamne le 7 novembre 2016 l’Etat pour défaut d’anonymisation sur Legifrance d’un arrêt d’appel en matière de divorce [30].
Pour finir, le RGPD prévoit de lourdes sanctions pour les producteurs de données personnelles soumis au droit des données personnelles et ne respectant pas leurs obligations. Ici, ce serait la DILA, autant dire l’Etat ...
La délicate question des décisions pénales et des tribunaux de commerce
C’est sur les chantiers 3 et 4 évoqués supra (collecte et anonymisation 3. des décisions civiles et commerciales de première instance et 4. des décisions pénales de 1ère et 2e instances) que le travail sera le plus long, pour les raisons citées plus haut. Le paragraphe important dans l’article de NetxINpact est la citation du ministère de la Justice à propos des décisions pénales du fond et des jugements de première instance (notez le conditionnel dans les deux phrases et le "moyennant" ...) :
« En matière pénale, le déploiement de Cassiopée dans les cours d’appel permettrait d’intégrer les arrêts rendus en matière pénale moyennant le développement d’un applicatif adapté. Les décisions de première instance seraient intégrées à la base de données dans un second temps. »
Enfin, il y a la question des jugements des tribunaux de commerce. Le fonctionnement des Tcom est pris en charge par les greffiers de commerce et leur personnel. Les greffiers des tribunaux de commerce sont certes des officiers publics et ministériels nommés par le garde des sceaux mais ils exercent dans un cadre libéral : ce sont de véritables chefs d’entreprise [31] La saisie et le stockage des décisions ne sont donc pas pris en charge par le ministère de la Justice. D’ailleurs, les greffes des Tcom *vendent* leurs décisions.
Un calendrier prévisionnel mais incertain
Est paru dans le Recueil Dalloz du 20 juillet 2017 un article de MM. Buat-Ménard et Giambiasi, tous deux magistrats et travaillant au ministère de la Justice, intitulé « La mémoire numérique des décisions judiciaires. L’open data des décisions de justice de l’ordre judiciaire ».
On peut y lire différents développements sur l’anonymisation des décisions judiciaires et la place et le rôle de la jurisprudence à l’aune de l’Open data.
Une partie de l’article nous intéresse plus particulièrement, qui s’intitule « Les perspectives de mise en œuvre » où les auteurs confirment les délais déjà donnés en janvier par le ministre de la Justice d’alors [32] : cet open data judiciaire pourrait être mis en œuvre en trois étapes : la mise à disposition des décisions de la Cour de cassation (de 6 mois à un an après l’entrée en vigueur du décret à venir), puis celle des Cours d’appel (près de 36 mois seraient nécessaires, toujours après l’entrée en vigueur du décret) et enfin celle des décisions de premier degré (dans un délai de 3 à 8 ans).
Ainsi le ministère de la Justice émet-il l’hypothèse d’un open data complet en … 2025. Pour mémoire dans un article des Echos du 22 mars 2017, il était question d’un open data effectif sous 5 ans.
Deux autres choses sont à souligner dans cet article :
- un aspect crucial du projet : l’article paru au Dalloz parle d’anonymisation — forte — et non de simple pseudonymisation (qu’on appelait anonymisation jusqu’à la publication du nouveau règlement européen de protection des données personnelles dit RGPD qui entrera en vigueur en 2018). Le nouvel objectif et critère promu par le RGPD est bien d’empêcher toute dé-anonymisation (ou ré-identification) en l’état actuel de la technique. Or on sait re-personnaliser des données bancaires ou hospitalières pseudonymisées. Il faut donc ne plus se limiter à la solution actuelle, où l’on remplace les noms par des lettres — solution anciennement dénommée anonymisation et qu’on appelle depuis le RGPD pseudonymisation
- ce texte est l’adaptation écrite d’une intervention de M. Buat-Ménard, préparée conjointement par les auteurs, le 9 mars 2017, lors de la journée d’étude consacrée à La mémoire numérique de la justice, co-organisée par la Sous-direction de la statistique et des études du ministère de la Justice et l’Institut des hautes études sur la justice. Et il ne comporte aucun avertissement comme quoi il ne serait qu’une position personnelle des deux magistrats. On semble donc avoir là une prise de position publique du ministère, bien établie car réitérée tant sous présidence Hollande que sous celle d’Emmanuel Macron.
On peut donc déduire de cet article au Recueil Dalloz qu’au vu du RGPD et des obligations qui lui échoient, le ministère de la Justice a fait le choix pour l’avenir et pour la mise en open data de l’ensemble de la jurisprudence de l’anonymisation (au sens nouveau du terme, donc forte), non de la simple pseudonymisation mais carrément de l’anonymisation [mise à jour au 7 septembre 2019 : la suite, et tout particulièrement l’élaboration et la publication de la loi du 23 mars 2019, montrera que cette interprétation extensive du RGPD n’était finalement pas totalement celle des pouvoirs publics, voir aussi le débat infra avec B. Mathis. Il n’en reste pas moins que le ministère de la Justice et les juridictions suprêmes resteront très attachés à une réelle pseudonymisation à défaut d’une parfaite anonymisation].
Conclusion - Mission impossible pour les pouvoirs publics ? - Et les acteurs privés ?
Avec tous les écueils listés supra, on peut estimer que des retards supplémentaires ou pour le moins une réalisation partielle sont possibles voire probables.
Que va-t’il se passer sur le terrain entre-temps, est une question à laquelle je me garderais bien de répondre. Mais la réponse pourrait bien définir le futur de facto (et non de juro ; c’est le genre de situation qu’on a longtemps connu en matière de données personnelles dans la jurisprudence) si les pouvoirs publics se situent dans des délais aussi longs. Espérons que les acteurs (qui incluent les éditeurs juridiques et les institutions tout autant que les legal tech) suivront la position que vient de prendre le ministère.
Emmanuel Barthe
bibliothécaire documentaliste juridique
spécialiste des données publiques juridiques
Notes
[1] Voir notre billet Open data et données juridiques publiques en France : les pouvoirs publics sont lancés ....
[2] Le gras est de nous.
[3] Evelyne Serverin, Plaidoyer pour l’exhaustivité des bases de données de décisions du fond (à propos de l’ouverture à la recherche de la base JURICA), Rec. Dalloz 2009.2882. Voir sur ce blog : Tout (ou presque) sur Jurica. Serge Bories, JuriCA : un outil de communication et de recherche, Rec. Dalloz 2011.1242. Rapport 2015 de la Cour de cassation > Activité du SDER > C > 9e paragraphe.
[4] Avis CADA n° 20053620 du 3 novembre 2005 Maire de Lyon (délégation générale au service au public et à la sécurité). Voir sur le site de la CADA : L’accès aux documents administratifs > L’étendue du droit d’accès > La notion de document administratif > Les documents juridictionnels. Extrait pertinent : « La CADA, saisie d’une demande d’avis concernant de tels documents, se déclare incompétente. Il s’agit en particulier :
- des jugements, ordonnances, décisions ou arrêts rendus par les juridictions de l’ordre judiciaire ou par celles de l’ordre administratif ».
[5] Vous pouvez le constater par exemple dans le texte de cet arrêt de la cour d’appel de Paris 5è chambre, section C du 23 juin 2000 n° RG1999/00336, où le pseudonyme d’un chanteur célèbre est en toutes lettres.
[6] Pour un exemple, voir infra dans le texte.
[7] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données), JOUE L 119 du 4 mai 2016, pp. 1-88.
[8] Point 2.2. de la Synthèse du règlement sur la protection des données, Wiki de la Quadrature du Net (consulté le 19 mars 2017).
[9] Un travail collaboratif dans le cadre du forum Open Law en 2017 a permis de dégager une quarantaine de champs et d’annoter environ 400 décisions extraites de Legifrance.
[10] Le XML de PACER ne balise toutefois pas le texte même de la décision mais ce qu’on pourrait appeler ses métadonnées — et là, il est assez complet, voir ce fichier PDF. Il ne balise pas, notamment, les noms des parties dans le rappel de la procédure et des faits, ni dans les motifs ni dans le dispositif.
[11] ETP : équivalent temps plein. Expression utilisée en RH dans la fonction publique.
[12] Source : Chiffres clés de la Justice 2016, qui donne les chiffres de 2015. Version PDF complète.
[13] Cette masse, en revanche, ne sera peut-être pas inintéressante pour les outils dits de "justice prédictive". Voir notre article Intelligence artificielle en droit : derrière la "hype", la réalité.
[14] Voir notre article Anonymisation des décisions de justice en ligne : la position de la CNIL de 2006.
[15] Rapport 2015 de la Cour de cassation > Livre 4 : Activité de la Cour > II. Service de documentation, des études et du rapport de la Cour de cassation > Activité 2015 du [SDER] > A. Le SDER > 2. Les autres missions de support du SDER.
[16] Les tribunaux de commerce ne comptent pas de magistrats du ministère de la Justice et ce sont les greffiers de commerce, profession indépendante, qui gèrent eux-mêmes la production des décisions des Tcom.
[17] I.e. hors Cour de cassation.
[19] Les commentateurs sous l’article de NextINpact précité se font des idées quand ils estiment (très majoritairement) que la pseudonymisation est déjà faite ou est facile.
[20] Avec la loi Lemaire la responsabilité de l’administration pourra être engagée pour chaque décision de justice mal anonymisée, blog de Supra Legem 19 septembre 2016.
[21] La loi Informatique et libertés, tout comme le Règlement général de protection des données, ne concernent pas et ne protègent donc pas les personnes morales, comme les sociétés ou les administrations. Toutefois, "société Robert" permet une réidentification aisée : une interprétation ne respectant pas la lettre de la recommandation CNIL mais l’esprit de la loi recommande donc d’anonymiser — pardon, pseudonymiser — "société Robert" en "société X...".
[22] Violant ainsi non seulement la recommandation CNIL mais aussi la loi ...
[23] Blog de Supra Legem 5 septembre 2016.
[24] La qualité de l’anonymisation des décisions de justice par machine learning baisse de façon drastique en fonction du nombre de mentions à anonymiser, par Michael Benesty, LinkedIn Pulse, 7 septembre 2016. Bien lire les commentaires aussi.
[25] Pour citer l’intervention au colloque de 2016 sur l’open data de la jurisprudence de Jean-Paul Jean, alors président du Service de documentation, des études et du rapport (SDER) de la Cour de cassation et à ce titre au coeur du problème : « De nombreuses décisions, et plus encore celles de décisions des juges du fond, contiennent tant de détails liés aux faits de l’espèce que des personnes connaissant les protagonistes d’un procès pourront les reconnaître à la lecture d’une décision, même si les éléments d’identification directe sont occultés.
L’enjeu ne saurait donc être d’empêcher toute ré-identification, ce qui est impossible (à moins de rendre les décisions illisibles et inexploitables), mais d’évaluer ce risque, de le limiter, donc de définir un niveau de risque acceptable, doublé d’un mécanisme de correction, au regard des bénéfices attendus par l’open data. »
[26] Avec l’accès gratuit à toute la jurisprudence, des magistrats réclament l’anonymat, par Caroline Fleuriot, Dalloz Actualité, 6 février 2017.
[27] Voir les dispositions du projet de loi d’orientation et de programmation pour le redressement de la justice (2017).
[28] Au Sénat, coup de semonce contre la mise en Open Data des décisions de justice, par Xavier Berne, NextInpact, 13 octobre 2017.
[29] Avec la loi Lemaire la responsabilité de l’administration pourra être engagée pour chaque décision de justice mal anonymisée, blog de Supra Legem 19 septembre 2016.
[30] TA Paris 2e ch. 7 novembre 2016 n° 1507125. Ce jugement a été publié in extenso dans la Lettre du tribunal administratif de Paris fin janvier 2017 (PDF) p. 116. Lire notre billet Défaut d’anonymisation d’un arrêt sur Legifrance : l’Etat condamné à 1000 euros de dommages-intérêts.
[31] Statut et rôle du greffier, site du greffe du tribunal de commerce de Bobigny, consulté le 28 juillet 2017.
[32] L’accès aux décisions anonymes ne fait pas l’unanimité parmi les magistrats, par Caroline Fleuriot, Dalloz actualité, 6 février 2017 (accès réservé). L’information donnée par le ministre de la Justice Jean-Jacques Urvoas est également reprise en bas de page d’un autre article de Dalloz Actualité, en accès libre, lui : L’utilisation de l’outil Predictice déçoit la cour d’appel de Rennes, 19 octobre 2017.
Commentaires
16 commentaires
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Vous écrivez : "Autrement dit et en une phrase, le RGPD exige, pour ne pas appliquer toute la rigueur du droit des données personnelles, que la base soit anonymisée au sens fort où, en l’état actuel de l’art, la réidentification est impossible"
Je ne partage pas votre avis : l’article 35 du RGPD, en prévoyant une étude d’impact, admet implicitement une marge d’erreur : si l’anonymisation des décisions de justice était "forte", l’impact sur la vie privée de leur mise à disposition en open data serait nul, par hypothèse, et l’étude sans objet. Je ne vois rien qui exempte l’open data jurisprudentiel de cette étude d’impact et m’attends à ce que le décret d’application des articles 20 et 21 de République numérique désigne la(les) institution(s) responsable(s) de cette étude.
J’ajoute qu’en invitant le lecteur à signaler tout défaut d’anonymisation dans une décision de justice, Légifrance reconnaît que de tels défauts sont possibles. Et que, à supposer que le décret d’application ne paraisse pas dans les temps, les décisions mises à disposition par la DILA à compter de l’entrée en vigueur tombent quand même sous le coup de l’article 35.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Bonjour Bruno,
Ce que vous sous-entendez, si je comprends bien, c’est que si on veut que les données jurisprudentielles soient ouvertes, il faudrait trouver le moyen de contourner la rigueur du RGPD. La loi Lemaire veut ouvrir les données de la jurisprudence et en même temps, on doit appliquer le RGPD. Il faudrait trouver une solution.
Pour vous répondre en deux points :
1.Le RGPD, en effet, n’exige pas que la réidentification soit impossible.
2. Toutefois, les choses sont plus subtiles que cette négation. Le RGPD exige une anonymisation (et non une pseudonymisation, simple caviardage des noms de personnes physiques) forte. C’est au pouvoir réglementaire — qui renverra cela à la CNIL — de définir précisément le niveau d’exigence. Mais vu la formulation du RGPD, ce niveau a intérêt à être élevé, pas faible ni moyen.
Développons.
1. Sur le RGPD, je me souviens très bien de l’appréciation portée par deux juristes très différents mais tout aussi compétents en droit des données personnelles (dit aussi informatique et libertés) : pour eux, le RGPD est un texte fortement marqué par les interventions des groupes d’intérêts, d’une qualité rédactionnelle très relative, pouvant dire tout et son contraire, et qui ne risque donc pas de changer le fond des choses en France. Olivier Itéanu, spécialiste de longue date du droit de l’Internet, ne dit pas autre chose dans son dernier ouvrage.
Dans cette ligne de pensée, si on veut aller dans votre sens, il est possible d’étendre au RGPD la réflexion de Nicolas Ochoa sur la loi Informatique et libertés. Pour lui, en substance, la loi Informatique et libertés organise une liberté de traitement des données personnelles qui constitue une liberté publique de manière à protéger la société, société qui a fait le choix de développer les fichiers informatisés (Le droit des données personnelles, une police administrative spéciale, par Nicolas Ochoa, thèse, Université Paris 1 Panthéon-Sorbonne, 2014. Ce travail a valu à son auteur une qualification immédiate aux fonctions de maître de conférences en droit public, signe de la qualité de la thèse).
Les considérants 2, 3 et 4 du RGPD et son article 1.3 vont dans ce sens de relativisation du droit de protéger ses données et de conciliation des intérêts des émetteurs de données personnelles avec ceux de la société et des acteurs économiques.
Une autre illustration de la difficulté de faire, en pratique, une autre interprétation du droit des données personnelles, est le titre donné à une des interventions à la matinée ADIJ du 10 octobre 2017 Ouverture des données publiques : quel état des lieux après la loi Lemaire du 7 octobre 2016 ? Cette intervention a pour titre : Open data et protection des données et de la vie privée : un combat perdu d’avance ?
Dans ce cadre, le cabinet d’avocats Ulys, spécialiste du droit du numérique, écrit, à propos de l’article 35 :
L’analyse d’impact ne revient donc pas à tout autoriser, mais selon le cabinet Ulysse, atténuer le risque suffirait. Toujours est-il que je n’ai pas vu cette notion d’atténuation du risque de réidentification dans l’article 35.
2. Toutefois, deux magistrats de la Chancellerie, MM. Buat-Ménard et Giambiasi, dans leur analyse du problème de la pseudonymisation et de l’anonymisation face au RGPD [1], estiment quant à eux que :
des personnes - autrement dit, leur identité - semble peu discutable, le pouvoir réglementaire aura la charge de
préciser les contours et l’étendue de l’analyse du risque de ré-identification des personnes et ses incidences. Afin de
prévenir une éventuelle ré-identification des personnes, notamment par des croisements avec d’autres données,
des mentions d’identification supplémentaires pourraient alors être occultées ». Cette occultation toutefois, l’article 21 n’en dit rien : stricto sensu, il exige juste une étude d’impact, rien d’autre
règlement apparaît d’emblée incompatible avec les finalités de l’open data. La mise à disposition des décisions
de justice devra donc se situer hors du champ du règlement, ce qui semble envisageable sous certaines conditions [et est tout à fait légal].
Le considérant 26 du texte prévoit, en effet, qu’il n’y a " pas lieu d’appliquer les principes relatifs à la protection des
données aux informations anonymes, à savoir les informations ne concernant pas une personne physique identifiée
ou identifiable, ni aux données à caractère personnel rendues anonymes de telle manière que la personne
concernée ne soit pas ou plus identifiable. Le présent règlement ne s’applique pas, par conséquent, au traitement
de telles informations anonymes ". Un processus de mise à disposition des décisions de justice occultant les
éléments d’identification des personnes et prévenant efficacement la ré-identification serait donc en dehors du
champ du règlement [et, répétons-le, parfaitement légal]. [...] L’Open data des décisions de justice devra donc être réalisé dans une
perspective d’anonymisation, c’est-à-dire en prévenant avec un degré de certitude élevé le risque que ces identités,
même occultées, puissent être retrouvées. »
Un ingénieur en sécurité informatique de la société de conseil Digitemis explique quant à lui, sur le blog de la société, que :
« Le G29 (groupe des autorités de contrôle dont la CNIL), quant à eux, recommande qu’une DPIA soit effectuée pour aider les responsables du traitement à se conformer à la réglementation. » [3]
Se conformer à la réglementation, dit le G29. Pas la contourner.
Damien Culo note aussi que selon le guide de la CNIL sur la méthode pour faire un DPIA : « point important à noter, la mise en place de cette méthode impose d’identifier les mesures de sécurité, mais aussi de conformité au règlement, avec notamment (RGPD article 35 – 7) :
Respecter le RGPD, dit la CNIL. Sous-entendu , respecter le reste du règlement en sus de l’article 35. Pas se baser sur 35 pour contourner le reste du RGPD.
Nathalie Métallinos, avocate, note, elle, que le G29 considère l’analyse d’impact « comme une méthodologie générale à appliquer même dans les cas où elle n’est pas obligatoire [...] Le G29 estime ainsi que les traitements visés à l’article 35, 3e) n’ont que valeur d’exemples et qu’il faut inclure d’autres catégories de traitements également susceptibles de présenter des risques pour les droits et les libertés. » (Projet de lignes directrices du G29 : Consécration du rôle central des études d’impact sur la vie privée, Communication Commerce électronique, juin 2017, comm. 57) Cette position du G29, si elle est contredite par l’article 35, 4e), montre encore une fois que l’analyse d’impact n’est pas à concevoir comme un moyen de minimiser les efforts de protection des données personnelles.
Xavier Ronsin, Premier président la cour d’appel de Rennes, interviewé par Dalloz Actualité, pense lui aussi à une anonymisation forte et rigoureuse quand il estime que « l’intelligence artificielle devra s’appuyer sur l’open data et donc résoudre les problèmes d’anonymisation qui l’accompagnent et qui peuvent empêcher ces produits de voir le jour ».
Enfin, il est parfaitement possible de défendre une interprétation "grands principes" du RGPD :
Le véritable débat n’est donc pas sur l’analyse d’impact mais sur le degré d’anonymisation (et non, j’insiste, de pseudonymisation). C’est tout l’enjeu des futurs textes français d’application du règlement européen : seront-ils un peu, moyennement ou très exigeant ? S’ils le sont peu ou moyennement, le risque de réussite d’un recours devant le juge administratif contre ces textes sera grand.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Bonjour Emmanuel,
Merci pour cette réponse très détaillée.
Je ne cherche pas à « contourner la rigueur du RGPD », mais je ne lui vois pas la même rigueur que vous.
Vous estimez que le RGPD exige que la base de données soit anonymisée « au sens fort » où la ré-identification est « impossible ».
Il est impossible de garantir que la ré-identification soit impossible. Je crois que les chercheurs spécialisés en anonymisation sont d’accord là-dessus. J’ajoute qu’il n’y a pas qu’un risque de ré-identification, mais aussi un risque d’identification tout court. Si vous avez une décision qui omet un simple espace entre deux mots dont l’un est le patronyme d’une partie au procès, il y a des chances que le processus d’anonymisation, qu’il soit mu par une règle d’analyse sémantique ou un moteur d’apprentissage, ne s’en aperçoive pas. Si vous avez une décision relativement à un certain J.K. condamné à payer un million d’euros à Société générale, vous comprenez de qui il s’agit sans faire d’effort de ré-identification par recoupement avec d’autres sources d’information. Donc le problème se pose aussi.
Vous semblez en conclure que l’existence de décisions de justice qui passeraient à travers les mailles du filet de l’anonymisation rendrait l’open data jurisprudentiel illicite au sens du RGPD. La licéité du traitement est de toute manière assurée par le d) de l’article 6 du RGPD : « le traitement est nécessaire au respect d’une obligation légale à laquelle le responsable du traitement est soumis », en l’occurrence les articles 20 et 21 de République numérique.
Si je ne vois pas d’incompatibilité avec République Numérique, je ne défends pas l’idée selon laquelle la mise à disposition des décisions de justice échapperait au périmètre du RGPD au motif, évoqué dans la dernière phrase du considérant 26, que les données publiées seraient « anonymes ». Si le traitement produit des données anonymes, c’est parce qu’il porte sur des données personnelles et que le RGPD oblige à les anonymiser. Et précisément, il n’est pas garanti que ces « données anonymes » le soient à 100%.
En revanche, le même considérant 26 précise : « Pour déterminer si une personne physique est identifiable, il convient de prendre en considération l’ensemble des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement ». Je ne vois pas là d’anonymisation « au sens fort », mais un guide pour le responsable de l’analyse d’impact dans l’évaluation des risques, avec, en creux, l’admission que certaines personnes resteront identifiées ou identifiables.
Pour cette même raison, je ne souscris pas à l’idée, que vous relevez des écrits des magistrats de la chancellerie, selon laquelle « l’open data des décisions de justice devra [prévenir] avec un degré de certitude élevé le risque que ces identités, même occultées, puissent être retrouvées ». C’est rechercher le zéro-défaut. Le législateur européen met en avant depuis quelques années une doctrine du risque, depuis la lutte anti-blanchiment jusqu’à la sécurité des réseaux et des systèmes d’information (directive dite « NIS »), en passant par le RGPD. La doctrine du risque est à l’opposé de celle de la certitude. Elle est empreinte d’un souci de proportionnalité, qu’on retrouve dans l’adverbe « raisonnablement » du considérant 26. Le législateur européen ne cherche pas à imposer un processus d’anonymisation qui serait à ce point coûteux qu’il compromettrait une politique d’open data qu’il promeut par ailleurs. Et le législateur français, en prévoyant dans les articles 20 et 21 de la loi République numérique, « une analyse du risque de ré-identification des personnes », ne fait qu’en affirmer la cohérence avec « l’étude d’impact » définie par le RGPD. Les deux ne font qu’une.
Vous dites que le véritable débat porte sur le degré d’anonymisation. Il existe différentes techniques d’anonymisation, chacune avec ses avantages et ses inconvénients – je regrette à cet égard que l’opportunité de poursuivre les travaux de recherche en matière d’anonymisation semble absente du débat public. Et puis, différentes juridictions peuvent avoir différents cahiers des charges. On sait que le Conseil d’Etat n’applique pas les mêmes règles que la Cour de Cassation. Donc je ne crois pas qu’on ait le luxe de choisir un degré d’anonymisation. J’ajoute que le caviardage me parait exclu en ce qu’il compromettrait définitivement l’intelligibilité de la décision. Enfin, je ne développe pas le thème, montant, de la transparence des algorithmes appliquée à une anonymisation par apprentissage…
C’est pourquoi l’analyse d’impact est ce qui me paraît important. Celle-ci est certes une bonne pratique, comme le suggère la recommandation du G29 que vous citez. Elle conduit le responsable à s’interroger sur sa façon de gérer le risque. Elle lui fait choisir la technique d’anonymisation et la politique de tests adaptées, produisant des résultats justes dans 98% des cas, par exemple, ratio qu’il défendrait comme raisonnable compte tenu de son niveau de risque. C’est une marque de transparence, et plus encore, pour le responsable de traitement, l’instrument de la preuve qu’il a rempli ses obligations de moyen face au justiciable qui l’attaquerait pour un défaut d’anonymisation le concernant.
Il appartient au responsable de l’analyse d’impact – a priori c’est le responsable de traitement même si le RGPD ne le dit pas clairement – d’identifier les risques et de les évaluer. Libre à chaque juridiction d’estimer que son risque d’atteinte à la vie privée des personnes n’est pas élevé, et par conséquent de s’épargner la charge d’une étude d’impact.
Le RGPD touche au premier chef les entreprises privées dans leur politique marketing. Certaines produiront une étude d’impact. Mais si le profilage conduit à un « enfermement dans la personnalisation », comme on le dénonce aujourd’hui, le justiciable qui voit son identité révélée peut, lui, ne pas retrouver du travail. Le risque n’est-il pas plus élevé ?
Il semble qu’une justiciable ait récemment obtenu un dédommagement au motif que la révélation de son divorce aurait porté atteinte à sa vie privée. Si, après entrée en vigueur du RGPD et en pareille affaire, une juridiction ne peut produire son étude d’impact et convaincre du caractère raisonnable de sa méthodologie, alors, c’est sûr, l’Etat continuera à payer des dommages-intérêts, mais dans une quantité proportionnelle au nouveau périmètre de l’open data jurisprudentiel…
Bien à vous
Bruno Mathis
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Merci pour cette réponse Bruno.
Elle confirme ce que je disais : le RGPD permet des interprétations différentes.
Le terme « raisonnablement » que vous soulignez est un arguement fort de votre thèse. D’autant qu’il a remplacé en droit français l’expression "bon père de famille".
Il demeure que l’ensemble du règlement peut être interprété en faveur d’une très grande exigence en matière d’anonymisation, incluant un effort financier. C’est du moins l’interprétation du professeur Anne Debet, la spécialiste universitaire du droit des données personnelles.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Autre chose : chez les juristes, on aime bien citer les considérants des textes européens.
Pour autant, un considérant reste un considérant. Ce n’est pas un article du texte. Il aide à l’interprétation, mais ce n’est pas une disposition contraignante.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Enfin, je vais me répéter mais c’est essentiel : interpréter le RGPD sans reprendre son esprit et sa tonalité générale, en s’accrochant aux considérants, c’est chercher à limiter les effets du texte. Or le texte a été pris pour protéger les particuliers, la vie privée peut être considérée comme une liberté publique et en cette matière, il est considéré que l’interprétation doit être faite dans le sens donnant son plein effet au texte.
Je citerai simplement la professeur Anne Débet, ancien commissaire de la CNIL, et meilleure spécialiste universitaire du sujet, tel que les annexes du rapport Cadiet retranscrivent ses propos :
Au regard de la jurisprudence de la Cour européenne des droits de l’homme, « on peut imaginer une condamnation de la CEDH sur le fondement d’une possible réidentification des personnes dans une décision contenant des données sensibles non correctement anonymisées ».
« L’anomymisation doit être conforme aux exigences posées par la loi informatique et libertés et par le RGPD. Le considérant 26 du texte définit les données anonymes comme les informations ne concernant pas une personne physique identifiée ou identifiable, (…) les données à caractère personnel rendues anonymes de telle manière que la personne concernée ne soit pas ou plus identifiable. Il ne doit pas s’agir d’une simple pseudonymisation, [...] Cette amélioration a néanmoins un coût et un budget conséquent doit y être consacré. »
On ne saurait être plus clair.
Par ailleurs, si on veut rester à tout prix bassement réaliste tout en favorisant réellement l’open data de la jurisprudence, il est possible, sans retirer toute information factuelle des décisions, d’aller bien plus au-delà de la pseudonymisation que ce que le rapport Cadiet veut bien reconnaître. Au-delà, donc, du simple retrait des noms, prénoms, adresse, métier, âge, relations de famille (fille, fils, père, mère de ... etc.) et professionnelles (employé, supérieur de ... etc.) et autres indications évidentes (et déjà retirées par la Cour de cassation).
Pour aller plus loin, comme maintes fois expliqué par les spécialistes et sur ce blog, il faudrait adapter la rédaction des décisions de justice dès le départ (certaines informations ne devraient plus figurer dans le texte même de la décision, mais dans une zone spéciale au début) et encadrer le reste avec des balises XML.
Mais, comme le dit Anne Debet, « un budget conséquent doit y être consacré ». Les textes juridiques doivent-ils être interprétés dès que la protection des données personnelles coûte cher ?
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Nous sommes en juin 2019. Le rapport Cadiet sur l’open data des décisions judiciaires est paru début 2017 (voir notre analyse).
Puis la loi de programmation et de réforme de la justice, qui s’inspire — en partie seulement — des conclusions du rapport Cadiet est parue en mars 2019. Elle a (ses débats ont) notamment arbitré en faveur de l’interdiction de l’indexation et de l’utilisation des noms des magistrats dans les bases de données et outils de justice dite prédictive, sans pour autant obliger à retirer ces mêmes noms des décisions transmises aux bases de données ou des copies de la "grosse".
Entretemps, la Cour de cassation s’est vu adjoindre l’assistance de spécialistes du machine learning venus d’Etalab (par le biais du programme EIG Open Justice) pour aider à l’anonymisation (EIG : entrepreneurs d’intérêt général).
Pour autant, notre diagnostic supra ne change pas. Pour plusieurs raisons :
A.M. : L’essentiel, à ma connaissance. Les décisions de la cour d’appel et de la Cour de cassation sont dans JuriCa/Jurinet. Ce sont les décisions des tribunaux d’instance et de grande instance qui posent problème : remonter tout ce flux pose de réelles difficultés techniques. »
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain : impacts de la loi de programmation et de réforme de la justice de mars 2019
Commentant la "circulaire" (en fait une note) du 19 décembre 2018 relative à la communication de décisions judiciaires civiles et pénales aux tiers à l’instance ainsi que deux arrêts d’appel (CA Paris 18 décembre 2018 et CA Douai 21 janvier 2019), un article d’Archimag datant de février 2019 a parfaitement anticipé la situation créée par la loi du 23 mars 2019 de programmation et de réforme de la justice :
Open data des décisions de justice : la distinction entre open data et open access réaffirmée
Et il faut citer cet extrait, qui confirme un point qui peut également avoir des implications importantes en termes d’intelligence artificielle en droit :
« Si aucune date n’est pour le moment avancée quant à la publication des fameux décrets qui permettront la mise en place d’un open data des décisions de justice, un point du projet de loi inquiète néanmoins certains professionnels et pourrait porter préjudice aux acteurs de l’édition juridique : afin de désengorger les tribunaux, la loi de programmation 2018-2022 et de réforme pour la justice prévoit le développement de la culture du règlement amiable en poussant les modes alternatifs de règlement des différends, préalables à la saisine d’un juge (arbitrages, médiation et conciliation) et notamment l’ouverture de services en ligne. Or, ne s’agissant pas de décisions de justice, ces décisions extra-judiciaires seraient donc exclues du champ de l’open data. On est donc en droit de se demander si l’on ne risquerait pas de perdre une somme importante d’informations au niveau de ces petits litiges. Et si y accéder ne sera pas également compliqué pour les éditeurs. »
L’open data des décisions de justice : quelques précisions apportées par des représentants du ministère de la Justice
Extrait de l’excellent article de la journaliste scientifique Isabelle Bellin, L’open data des données juridiques se fait attendre (Data Analytics Post, 11 juillet 2019 ; le gras est de nous) :
« " Notre enjeu à terme est d’aboutir à du Linked open data en mettant à disposition des données structurées et interopérables, indique Edouard Rottier [magistrat, Service de documentation, des études et du rapport (SDER), Cour de cassation]. Pour cela, nous entendons mettre en oeuvre l’identifiant européen de la jurisprudence (ou ECLI pour European Case Law Identifier) qui comporte un ensemble uniforme de métadonnées. A l’avenir, les décisions devraient être nativement structurées dès leur traitement initial, lorsque les nouveaux applicatifs développés par le ministère de la justice seront déployés en juridiction. Pour l’instant, pour les décisions d’appel, nous recevons un simple fichier Wordperfect accompagné d’un fichier XML comprenant quelques métadonnées basiques. C’est à partir de cela que l’on met à disposition un fichier XML pseudonymisé sur Legifrance. Le machine learning nous aide à pallier l’absence de structuration des documents, notamment en ce qui concerne les opérations de pseudonymisation. "
Le travail en amont au ministère de la Justice est donc considérable. Dans un récent article, fin 2018 [sur Actualités du droit], Arnaud Mazier, chef du service des systèmes d’information et de communication (SSIC) du ministère de la Justice reconnaissait que " WordPerfect fonctionne toujours, et il a beaucoup d’utilisateurs. C’est le reflet de ce ministère : nous avons quatre suites bureautiques (open Office, Office, Libre office et Microsoft WordPerfect). Ce que l’on vise, c’est passer en format numérique natif les chaînes de décisions civiles et pénales. Ce sont les décisions des tribunaux d’instance et de grande instance qui posent problème : remonter tout ce flux pose de réelles difficultés techniques. " »
Décryptage des phrases en gras : la priorité est au développement et à l’implémentation de Portalis, l’application métier de saisie, workflow et relation avec les justiciables.
Sous-entendu : dans la conception du Gouvernement, c’est Portalis qui permettra de faire avancer réellement la numérisation des cours et tribunaux judiciaires et de réaliser des économies (RGPP quand tu nous tiens ...). Le reste viendra avec. Ce qui, quand on connaît l’historique de l’informatisation de la Justice et ses cahots, voire accidents, laisse penser que les délais seront longs.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain (confirmation)
Ça a pris du temps, mais le titre de ce billet est, très logiquement, désormais confirmé. Cf le message de Jean Gasnault sur la liste Juriconnexion, reproduit pour l’essentiel infra (oui, il faut lire entre les lignes) :
« Mme Chantal Arens a été installée aujourd’hui dans ses fonctions de première présidente de la Cour de cassation.
Vous trouverez dans ce lien la vidéo de cette cérémonie et le texte des divers discours qui y ont été tenus.
https://www.courdecassation.fr/venements_23/audiences_solennelles_59/audiences_installation_chefs_cour_70/premiere_presidente_43524.html
Dont le sien.
Des extraits en rapport direct avec le sujet abordé :
« A l’heure de la transformation numérique de la justice, la mise à disposition à titre gratuit des décisions de justice, très attendue de l’opinion publique et des acteurs économiques, reste encore à mettre en œuvre.
La Cour de cassation est particulièrement engagée dans cette mission puisqu’à l’instar du Conseil d’Etat, et chacun pour son ordre juridictionnel respectif, elle se prépare à se voir confier le pilotage des dispositifs de collecte automatisée des décisions de justice ainsi que la gestion des bases de données ainsi constituées, leur traitement et la diffusion de l’ensemble de la production judiciaire française.
En raison de la place qui est la sienne, au sommet de la pyramide de l’ordre judiciaire, en raison des responsabilités qu’elle exerce et de son savoir-faire dans la publication de sa jurisprudence et de celle des cours d’appel et des tribunaux, avec la gestion, depuis de nombreuses années, de banques de données de jurisprudence, la Cour de cassation est particulièrement légitime pour prétendre au pilotage de l’open data des décisions de justice de l’ordre judiciaire. Je m’engage à poursuivre les démarches accomplies pour permettre à la Cour de remplir cette importante mission, sous l’égide du Service de documentation des études et du rapport et en lien avec le ministère de la Justice. »
Propos en conformité complète avec les conclusions du rapport Cadiet remis à la fin de l’année 2017 au ministère de la justice
https://www.courdecassation.fr/venements_23/relations_institutionnelles_7113/ministere_justice_8545/garde_sceaux_8546/
Rappelons pour mémoire que la Cour de cassation, avec le soutien d’Etalab, a lancé un programme Open Justice visant à mettre en place, sous format open source, des systèmes d’anonymisation de la jurisprudence.
https://entrepreneur-interet-general.etalab.gouv.fr/defis/2019/openjustice.html
https://www.courdecassation.fr/institution_1/revolution_numerique_7985/open_data_7821/innovation_technologique_9130/partenariat_ministere_41125.html
A noter que cette action est accompagnée par des éditeurs juridiques en mode collaboratif
https://www.efl.fr/actualites/affaires/themes-divers/details.html?ref=ui-5d24efb3-a82d-4399-97e5-db4d92aa5603
Jean Gasnault
SAS La Loi des Ours »
Nets progrès en 2019 sur la pseudonymisation
Toutefois, les ingénieurs machine learning d’Etalab envoyés assister la Cour de cassation ont beaucoup progressé en 2019 en utilisant deux librairies de "Named Entity Recognition" bien connues, Spacy et Zalando Flair : « diminution de 32% du taux d’erreur avec une meilleure utilisation de la connaissance de l’ensemble des données au lieu de simplement travailler au niveau de la phrase ».
Sources : Why we switched from Spacy to Flair to anonymize French case law … and why you should always review your options, par Michaël Benesty, Towards Data Science, 26 septembre 2019. May I Check Again ? A simple but efficient way to generate and use contextual dictionaries for Named Entity Recognition. Application to French Legal Texts, par Valentin Barrière et Amaury, Arxiv paper, 8 septembre 2019.
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Confirmation du délai important pour l’open data judiciaire, sauf pour les CA en civil, par la première présidente de la Cour de cassation Chantal Arens dans sa tribune à Dalloz Actualité du 18 novembre 2020 : « la Cour de cassation pourra effectivement assurer pour 2021-2022 l’accessibilité en open data de ses décisions et des décisions des cours d’appel en matière civile mais la mise à disposition des autres décisions risque d’être reportée à une date très incertaine. »
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
La Cour de cassation vient d’apporter plus de précisions : elle « prévoit la mise en open data des décisions de la Cour en septembre 2021 puis la mise en open data des décisions rendues par les chambres civiles, sociales et commerciales des cours d’appel en avril 2022. »
Source : Remise à la première présidente du rapport du groupe de travail « Open data – Occultations complémentaires » de la Cour de cassation
L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain
Et « plus tard pour les juridictions de première instance », autrement dit, après avril 2022, selon la première présidente de la Cour de cassation Chantal Arens, dans un entretien au Figaro du 28 février 2021.
Calendrier de l’open data des décisions des juridictions administratives
Selon le journaliste juridique Pierre Januel :
« Opendata en justice administrative :
Comme il était prévisible, ce n’est pas les juridictions administratives qui poseront problème. On savait que techniquement la base Ariane 2 des TAA était prête depuis des années, puisque des bruits indiquaient que le Obnseil d’Etat désirait la vendre.
Les décisions juridictionnelles ne sont décidément pas des actes administratifs (CE 5 mai 2021)
Le Conseil d’Etat a confirmé par sa décision n° 434502 du 5 mai 2021, sur conclusions conformes du rapporteur public Laurent Domingo, que les décisions juridictionnelles ne sont pas des actes administratifs.
Extrait des conclusions :
« Certes, un requérant peut toujours saisir la juridiction administrative sur le fondement du CRPA d’un litige concernant des documents émanant d’une juridiction, et le juge administratif est toujours compétent lorsque la demande invoque ce fondement (28 novembre 2016, M. Ablyazov, n° 390776, aux tables), mais il convient alors, pour les jugements, de répondre qu’ils ne sont pas des documents administratifs. C’est ce qu’a fait le tribunal, sans erreur de droit. »
« S’agissant d’une demande fondée sur le droit des archives publiques, le juge administratif est bien compétent pour en connaître, contrairement ce que soutient en défense le ministre de la culture. Sur le fond, il ne fait aucun doute à nos yeux que la demande de consultation anticipée de M. D... ne répond pas à un intérêt légitime, d’abord parce qu’elle ne tend pas réellement à une consultation de documents d’archives mais à leur communication, mais surtout parce qu’elle n’est pas faite en vue d’une supposée recherche scientifique mais bien pour alimenter le fonds de la base Doctrine.fr, c’est-à-dire pour commercialiser les documents auprès des abonnés. C’est donc sans erreur d’appréciation qu’un refus a été opposé à sa demande, sans qu’il y ait, comme dit précédemment, d’atteinte à l’article 10 de la convention européenne de sauvegarde des droits de l’homme et des libertés fondamentales. Les autres moyens de la requête sont inopérants et il convient donc de la rejeter. »
Laisser un commentaire