Anonymiser automatiquement les décisions de justice : des solutions
Anonymiser à la source est plus facile et moins cher
Vous êtes une association, un particulier, un organisme, une institution juridique dans un pays en voie de développement. Vous voulez mettre sur votre site les décisions de justice mais sans courir le risque de publier les noms des personnes physiques — ce qui peut être interdit [1] ou préjudiciable. Vous voulez au minimum les pseudonymiser, idéalement les anonymiser (pseudonymiser, c’est remplacer les noms par des lettres, anonymiser, au sens du nouveau règlement européen RGPD [2], c’est empêcher une ré-identification). Pour cela, vous cherchez un logiciel permettant de les anonymiser automatiquement.
Voici une tentative de réponse, rédigées après quelques consultations.
En résumé, et contrairement à ce qu’on pourrait penser, si on se donne la peine de "XMLiser" la chaîne de production numérique, anonymiser à la source est plus facile et moins cher.
Anomymiser ex-post
Pour anonymiser a posteriori, on peut utilisé les solutions éprouvées :
- les logiciels experts payants à base de règles ("rule based") du type Luxid de Temis (devenu Expert System) et Nome du laboratoire LII Lexum déjà citées sur ce blog [3]
- le machine learning (ML), une technique appartenant au champ de l’intelligence artificielle (IA) pourrait être prometteur. Même s’il n’arrive pas seul à un taux de succès suffisant en pseudonymisation [4], le ML peut au moins dégrossir le travail.
Voyez aussi :
- OpenJustitia Anom, module du système open source OpenJustitia développé par le Tribunal fédéral suisse
- e-doc Labs s’il existe encore.
Peut-être pouvez vous aussi voir si l’Institut de Veille Sanitaire français vous autoriserait à utiliser leur logiciel d’anonymisation et s’il pourrait être adaptable à votre cas.
Anomymiser ex-ante
S’il vous est possible d’encadrer dès la rédaction des décisions les noms des personnes physiques, vous pouvez anonymiser à la source :
- par des balises XML (invisibles à l’impression / visualisation) définies dans la DTD. Une modification de la feuille de style XSL permettrait alors de ne diffuser que des arrêts anonymisés [5]. C’est la solution du Conseil d’Etat français, et la plus rapide et la moins chère in fine
- voire très éventuellement par des (ou une chaîne de) caractères spéciaux visibles uniques dans le document (exemples : ^ ou ¤ ou %µ*), caractères qu’une macro Word avec des Rechercher et des Remplacer (ou un programme similaire sur tous les docts) pourra utiliser pour nettoyer les documents. Mais l’automatisation par macro ne suffit pas et laisse encore plein de travail humain. Tant et si bien que généralement il vaut mieux tout refaire à la main ...
En effet :
- il ne suffit pas de caviarder (supprimer les noms), encore faut-il que la décision continue d’être lisible (donc ne pas mettre Monsieur X à toutes les parties, surtout quand il y en a plusieurs avec le même nom)
- il ne faut pas anonymiser les personnes morales ni les professionnels du droit (sauf quand ils deviennent des parties, ce qui arrive parfois)
- enfin, la pseudonymisationymisation ne suffit pas, il faut dépersonnaliser (retirer adresse, profession rare, fait célèbre ou médiatique, numéro de carte bancaire, plaque minéralogique, numéro de cadastre, etc.). Cela, aucun rechercher/remplacer automatisé (les fameuses "règles"), aucun regex ne permet de le faire ...
La solution XML/XSL serait donc clairement à privilégier. Un tel chantier XML aurait d’autres avantages (énormes) : accélération de la production des décisions, économies à terme, meilleures performances de l’"IA" juridique (justice dite "prédictive", jurimétrie).
Toutefois, l’"XMLisation" de la chaîne de production numérique, quand on part de simples documents Word diversement structurés et de fichiers PDF, est un chantier lourd, long et initialement coûteux. Et l’état financier, technologique et RH du ministère de la Justice et des juridictions [6] rend cela peu probable dans un futur proche.
Merci d’avance de vos retours d’expérience (les commentaires sont ouverts ou par mail), qui permettront d’enrichir ce billet.
Emmanuel Barthe
documentaliste juridique, veilleur, formateur
Notes
[1] C’est le cas en France.
[2] Applicable à partir du 25 mai 2018.
[3] Et aussi la solution développée par Alter Systems pour le stock des arrêts du Conseil d’Etat. Voir commentaire infra. La société Alter Systems a hélas fermé en mars 2017. Précisons que les décisions des juridictions administratives sont beaucoup mieux structurées au niveau de la présentation, du langage et du format informatique que celles des juridictions judiciaires, ce qui les rend plus facile à pseudonymiser.
[4] C’est ce que montre le billet de Michael Benesty sur le sujet : La qualité de l’anonymisation des décisions de justice par machine learning baisse de façon drastique en fonction du nombre de mentions à anonymiser, blog de Supra Legem, 8 septembre 2016.
[5] Disclaimer : je ne suis pas un spécialiste du XML. J’en connais les principes.
[6] Voir notamment sur ce blog : Pas assez de juges en France, rien n’a changé.
Commentaires
2 commentaires
Aonnymiser automatiquement les décisions de justice : des solutions
Bonjour,
Je trouve l’article très intéressant mais je trouve dommage qu’il ne cite pas une solution française qui a été déjà mise en place avec succès par le Conseil d’Etat depuis plus de 9 mois et qui donne d’excellents résultats avec une anonymisation des documents non-structurés. Cette solution a été mise en place par notre société Alter Systems basée à Lyon.
En voici un court descriptif : http://goo.gl/faeMcJ
Je reste à votre disposition pour toute information complémentaire.
Cordialement,
Mihai
Nets progrès en 2019 sur la pseudonymisation avec les NER
Les ingénieurs machine learning d’Etalab envoyés assister la Cour de cassation ont beaucoup progressé en 2019 en utilisant deux librairies de "Named Entity Recognition" bien connues, Spacy et Zalando Flair : « diminution de 32% du taux d’erreur avec une meilleure utilisation de la connaissance de l’ensemble des données au lieu de simplement travailler au niveau de la phrase ».
Sources : Why we switched from Spacy to Flair to anonymize French case law … and why you should always review your options, par Michaël Benesty, Towards Data Science, 26 septembre 2019. May I Check Again ? A simple but efficient way to generate and use contextual dictionaries for Named Entity Recognition. Application to French Legal Texts, par Valentin Barrière et Amaury, Arxiv paper, 8 septembre 2019.
Laisser un commentaire