Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

Logiciels ou XML ?

Anonymiser automatiquement les décisions de justice : des solutions
Anonymiser à la source est plus facile et moins cher

Vous êtes une association, un particulier, un organisme, une institution juridique dans un pays en voie de développement. Vous voulez mettre sur votre site les décisions de justice mais sans courir le risque de publier les noms des personnes physiques — ce qui peut être interdit [1] ou préjudiciable. Vous voulez au minimum les pseudonymiser, idéalement les anonymiser (pseudonymiser, c’est remplacer les noms par des lettres, anonymiser, au sens du nouveau règlement européen RGPD [2], c’est empêcher une ré-identification). Pour cela, vous cherchez un logiciel permettant de les anonymiser automatiquement.

Voici une tentative de réponse, rédigées après quelques consultations.

En résumé, et contrairement à ce qu’on pourrait penser, si on se donne la peine de "XMLiser" la chaîne de production numérique, anonymiser à la source est plus facile et moins cher.

Anomymiser ex-post

Pour anonymiser a posteriori, on peut utilisé les solutions éprouvées :

Voyez aussi :

Peut-être pouvez vous aussi voir si l’Institut de Veille Sanitaire français vous autoriserait à utiliser leur logiciel d’anonymisation et s’il pourrait être adaptable à votre cas.

Anomymiser ex-ante

S’il vous est possible d’encadrer dès la rédaction des décisions les noms des personnes physiques, vous pouvez anonymiser à la source :

  • par des balises XML (invisibles à l’impression / visualisation) définies dans la DTD. Une modification de la feuille de style XSL permettrait alors de ne diffuser que des arrêts anonymisés [5]. C’est la solution du Conseil d’Etat français, et la plus rapide et la moins chère in fine
  • voire très éventuellement par des (ou une chaîne de) caractères spéciaux visibles uniques dans le document (exemples : ^ ou ¤ ou %µ*), caractères qu’une macro Word avec des Rechercher et des Remplacer (ou un programme similaire sur tous les docts) pourra utiliser pour nettoyer les documents. Mais l’automatisation par macro ne suffit pas et laisse encore plein de travail humain. Tant et si bien que généralement il vaut mieux tout refaire à la main ...

En effet :

  • il ne suffit pas de caviarder (supprimer les noms), encore faut-il que la décision continue d’être lisible (donc ne pas mettre Monsieur X à toutes les parties, surtout quand il y en a plusieurs avec le même nom)
  • il ne faut pas anonymiser les personnes morales ni les professionnels du droit (sauf quand ils deviennent des parties, ce qui arrive parfois)
  • enfin, la pseudonymisationymisation ne suffit pas, il faut dépersonnaliser (retirer adresse, profession rare, fait célèbre ou médiatique, numéro de carte bancaire, plaque minéralogique, numéro de cadastre, etc.). Cela, aucun rechercher/remplacer automatisé (les fameuses "règles"), aucun regex ne permet de le faire ...

La solution XML/XSL serait donc clairement à privilégier. Un tel chantier XML aurait d’autres avantages (énormes) : accélération de la production des décisions, économies à terme, meilleures performances de l’"IA" juridique (justice dite "prédictive", jurimétrie).

Toutefois, l’"XMLisation" de la chaîne de production numérique, quand on part de simples documents Word diversement structurés et de fichiers PDF, est un chantier lourd, long et initialement coûteux. Et l’état financier, technologique et RH du ministère de la Justice et des juridictions [6] rend cela peu probable dans un futur proche.

Merci d’avance de vos retours d’expérience (les commentaires sont ouverts ou par mail), qui permettront d’enrichir ce billet.

Emmanuel Barthe
documentaliste juridique, veilleur, formateur

Notes

[1C’est le cas en France.

[2Applicable à partir du 25 mai 2018.

[3Et aussi la solution développée par Alter Systems pour le stock des arrêts du Conseil d’Etat. Voir commentaire infra. La société Alter Systems a hélas fermé en mars 2017. Précisons que les décisions des juridictions administratives sont beaucoup mieux structurées au niveau de la présentation, du langage et du format informatique que celles des juridictions judiciaires, ce qui les rend plus facile à pseudonymiser.

[4C’est ce que montre le billet de Michael Benesty sur le sujet : La qualité de l’anonymisation des décisions de justice par machine learning baisse de façon drastique en fonction du nombre de mentions à anonymiser, blog de Supra Legem, 8 septembre 2016.

[5Disclaimer : je ne suis pas un spécialiste du XML. J’en connais les principes.

[6Voir notamment sur ce blog : Pas assez de juges en France, rien n’a changé.