Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

La "pertinence" dans la recherche informatisée de documents juridiques
Tentative de définition et conséquences

Mon collègue Jean Gasnault (La Loi des Ours), tweetait récemment sous forme de défi : « Un jour, il faudrait écrire une note impertinente sur la "pertinence" dans la recherche informatisée de documents juridiques. Cela existe-il ? Par rapport à quoi ? »

Je n’ai pas résisté. Infra, donc, une tentative de réponse rapide.

La pertinence en général des résultats d’une requête dans un moteur de recherche est hautement subjective, i.e. liée à celui/celle qui cherche et à sa recherche en cours. Il suffit de taper search relevance criteria dans Google Scholar et de regarder les 10 premiers résultats pour s’en rendre compte. La plupart des articles scientifiques sur le sujet partent d’ailleurs du principe que les critères de pertinence viennent de l’internaute.

Après, il existe des critères de la pertinence sur lesquels la plupart des spécialistes s’accordent :

  • présence des mots-clés prédéterminés par l’utilisateur dans le document et de préférence dans le titre ou le chapeau
  • faible distance entre les mots-clés
  • fréquence des mots-clés dans le document
  • présence des synonymes des mots-clés dans les résultats
  • présence dans les résultats des concepts sous-jacents
  • présence massive dans les résultats des domaines scientifique/universitaire, culturel et géographique de l’utilisateur
  • autorité/compétence des auteurs
  • le moteur personnalise les résultats en fonction de l’historique de l’utilisateur (ce critère est controversé).

Parmi les conséquences de cette subjectivité et de ces critères, la difficulté de trouver — on devrait dire prévoir — les multiples façons d’écrire un même concept, une même base légale, autrement dit en termes de moteur de recherche les bons synonymes. En droit, selon le contexte, les bons synonymes de "dirigeant" peuvent être président, directeur général, gérant mais aussi (pas toujours) directeur financier, associé, administrateur/membre du conseil d’administration, administrateur ou mandataire judiciaire ... Et encore, car ici c’est assez facile.

Mais lorsqu’un concept implicite doit être déduit par le moteur de recherche d’une longue phrase du juge ou d’un salmigondis administratif au Journal officiel qui plus est tronqué car faisant référence à un autre texte officiel, les choses se compliquent nettement. Le droit n’est pas une science exacte, et son vocabulaire n’est pas du tout normalisé.

On en revient donc à un constat : il est plus facile de trouver de la pertinence (i.e. des réponses à ses questions ou au moins des pistes de réponse) dans un fonds à fort taux de doctrine et d’ouvrages à mise à jour. Parce qu’auteurs et rédacteurs/éditeurs écrivent avec les mots des "chercheurs" et emploient un vocabulaire riche et comprenant souvent les mots-clés tapés. Parce qu’en expliquant et critiquant les textes et la jurisprudence, ils explicitent des concepts qui restent implicites (non exprimés) dans les arrêts et les textes officiels, les rendant ipso facto "cherchables". Egalement parce qu’ils mettent en contexte et "globalisent" les décisions de justice. Sans la doctrine, par exemple, il est souvent difficile de savoir qu’on est face à un arrêt d’espèce ou inversement à un revirement [1]

Une autre conséquence en sciences juridiques de ces critères est qu’un bon moteur [2] va devoir privilégier dans 95% des cas, au moins dans les 2 ou 3 premiers résultats, les ouvrages à mise à jour et la doctrine [3] (la vraie, pas des paraphrases copiées-collées une heure seulement après le rendu d’une décision) sur la jurisprudence, les décisions inédites et les textes officiels (de par l’autorité de la doctrine mais aussi parce qu’elle présente, synthétise et explique, pas seulement parce qu’elle critique) sans pour autant oublier de sortir les arrêts dominants sur le sujet, surtout s’ils sont récents, i.e. la doctrine ne les a pas encore intégrés.

Le problème réside dans la tendance des utilisateurs de moteurs de recherche à ne voir que les 3 voire les 10 premiers résultats.
Pour autant, cette bataille pour les premières places ne vaut que si l’utilisateur ne découpe pas sa recherche par étapes/sources du droit et ne prend pas le temps de lire et de relever les notes de bas de page [4].
Isoler chaque source du droit rend la recherche plus facile ... et plus pertinente :-) Moralité : se former à la recherche documentaire en droit n’est pas inutile [5].

Le problème réside aussi dans les "recettes" et le paramétrage des moteurs : étendue de la synonymie automatique, pondération de la présence des mots-clés dans le titre et le chapeau, importance (justement) des commentaires par rapport à la jurisprudence et aux textes officiels (notamment les Codes, surtout depuis que leurs versions commentées sont en ligne sur les plateformes des éditeurs). Secret des affaires et "IA" oblige, les utilisateurs ont de moins en moins d’informations sur leur fonctionnement exact et donc sur ce qu’ils masquent et ce qu’ils mettent en avant. Cette "sauce moteur" a d’autant plus de conséquences qu’il est généralement impossible, sur une liste de résultats que l’utilisateur ne parcourra que jusqu’au 20e — et encore —, de tout présenter. Il faut insister sur ce dernier point : c’est un angle mort bien connu en sciences de l’information et en référencement (SEO) [6], mais ignoré des juristes.

Emmanuel Barthe
bibliothécaire documentaliste juridique, veilleur, formateur

Notes

[1Pour le dire avec les mots du professeur Cadiet (La jurisprudence à l’heure de l’open data, Blog Predictice, 21 septembre 2022) : « [C’est] un fait historiquement établi, que [...] le travail documentaire des éditeurs a contribué à la création de la jurisprudence. Pour que la jurisprudence puisse se former, il faut que les jugements soient connus, donc qu’ils soient publiés. La jurisprudence est la combinaison d’un mécanisme juridictionnel et d’un mécanisme documentaire dans lequel la doctrine a traditionnellement joué un rôle majeur (il suffit d’évoquer Labbé et Capitant). C’est un ménage à trois. La jurisprudence n’est pas donnée ; elle est construite et, traditionnellement, la doctrine, de conserve avec les éditeurs juridiques, joue un rôle essentiel dans cette élaboration : c’est la doctrine qui met en relief certaines décisions de justice, en raison de leur intérêt juridique, et procède à leur rapprochement de nature à faire apparaître l’existence de lignes jurisprudentielles, cohérentes ou divergentes, dans le cadre d’un travail d’éditorialisation. »

[2Ceci ne s’applique évidemment pas à des sites sans commentaire juridique comme Légifrance ou Doctrine.fr.

[3Chapitre I. Définition et rôle de la doctrine, in Précis de méthodologie juridique : Les sources documentaires du droit, dir. Axel de Theux, Imre Kovalovszky et Nicolas Bernard, Presses de l’Université Saint-Louis, 1995.

[40. points de droit, mots-clés, domaines du droit impliqués, bases légales 1. ouvrages à mise à jour 2. codes 3. traités 4. revues 5. jurisprudence et décisions inédites (voir le Jurisguide). Les articles dans les revues juridiques et les jurisprudences étant largement détectés par la lecture des notes de bas de page. Moralité : lire, c’est aussi chercher :-) L’utilisation de la base de données Le Doctrinal (Lexbase) peut aider pour localiser des articles de doctrine rapidement et sur l’ensemble des éditeurs.

[6Comme le dit la page Limitations of Search Engines du site de SEO Lab 99 : « Peu d’utilisateurs vont au-delà des deux premières pages de résultats de recherche. »