Avantage Gallica en juridique. Avantage Google en ergonomie

Gallica contre Google Books : le match !

La base d’ouvrages numérisés de la BNF est beaucoup plus riche en contenu juridique

Lundi 14 février 2011, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

Je suis parti, avec son accord, d’un ancien message de Rémy Nerrière sur la liste Juriconnexion que j’ai ensuite modifié et enrichi [1] publié sur la liste Juriconnexion, comparant les fonctionnalités de Gallica, la base de livres numérisés de la BNF, dans sa version 2, et Google Books. Voici le point de départ de Rémy :

« Expérience : un même ouvrage numérisé par la Bibliothèque nationale de France (BNF) et par Google :
Le droit civil français. vol. 7, suivant l’ordre du Code / Charles-Bonaventure-Marie Toullier, Warée oncle et Warée fils aîné (Paris), 1824-1828 :
http://gallica.bnf.fr/ark:/12148/bp...
http://www.google.com/books?id=Jk8U... »

La comparaison est assez utile.

Le match technologique : avantage Google, mais uniquement à cause de son moteur

On peut constater à travers cet exemple et des recherches tests que :

  • la notice de Gallica est plus complète et plus rigoureuse (avec lien vers la bibliothèque possédant l’ouvrage) que celle de Google Books (GB)
  • Gallica a une plus belle ergonomie, selon Rémy. Mon avis personnel : celle de Google est plus simple, plus facile à comprendre, mais de peu
  • Gallica propose un téléchargement en mode PDF, TIFF ou mode texte (TXT). Google ne propose que le téléchargement en mode PDF
  • Gallica propose un mode "écoute" pour les non voyants. Pas Google
  • Gallica annonce le taux de reconnaissance de l’OCR pour chaque ouvrage (87% ici). C’est à peu près identique à celui de Google (qui a du mal à gérer les accents parfois)
  • personnellement, j’ajouterai que la qualité de la copie image de Gallica est supérieure à celle de Google. C’est plus propre, il y a moins de ces petits points noirs, de ces traits gênant et parfois même empêchant la lecture
  • Google propose un accès par chapitre avec une vue du sommaire (en cliquant sur "A propos de ce livre"), ce qui peut être utile pour consulter un ouvrage. Pas Gallica. Il faut se déplacer au début ou à la fin de l’ouvrage et chercher "à la main" la table des matières puis y chercher les numéros de pages des chapitres
  • selon moi, la recherche avancée est plus complète sur Gallica (notamment interrogation et possibilité d’affiner sa recherche par thématique, notamment en droit). Gallica a indexé les ouvrages par matière ("Thème" = classification Dewey) ce que n’a semble t-il pas fait Google (classement par tags ou mot clé uniquement — pas de rubrique "droit")
  • un point très important à mon avis : l’impossibilité de localiser les occurrences des critères de recherche à l’intérieur du document rend l’exploitation des résultats de Gallica beaucoup plus difficile que ceux de GB. Il faut ajouter que le moteur de GB est plus rapide et son fameux classement des résultats souvent plus pertinent si on tape des mots matière (sauf, sur Gallica, si on utilise la recherche avancée et que l’on travaille par expression, mais cela ralentit alors considérablement le moteur de Gallica voire pose un problème de charge au serveur). En revanche, Gallica propose de télécharger au format PDF l’ouvrage : une fois cela fait, il est plus facile d’y rechercher la chaîne de caractères désirée
  • Gallica regroupe les périodiques d’une même collection/titre ensemble (voir infra). C’est pratique quand on cherche par référence et GB n’offre aucune fonctionnalité similaire
  • Google propose l’accès aux différentes éditions de l’ouvrage (toujours en cliquant sur "A propos de ce livre") assez utile — Gallica va-t-elle numériser les différentes éditions d’un même ouvrage ?
  • Gallica propose des fils RSS, pas Google.

Il faudrait ensuite essayer de comparer le nombre d’ouvrages accessible en droit par les deux institutions, Google dépendant d’abord (mais pas seulement) des fonds présents dans les bibliothèques universitaires (le plus souvent étrangères).

Le contenu juridique : avantage Gallica

Ouvrages

On trouve en fait sur Gallica une impressionnante collection d’ouvrages de droit français du XIXe siècle aux années 30 qui ont été scannés, dont des collections de revues Dalloz, le Bulletin des arrêts de la Cour de cassation et le Bulletin des lois (ancêtre du Journal officiel).

Mais on trouve également sur Gallica des livres (numériques, en fait) de droit récents consultables sur les sites partenaires (pôles associés). Ils sont indexés et apparaissent dans les listes de résultats. Ils restent consultables sur le site du partenaire. Ces e-books ne sont alors consultables qu’en mode image et sur une partie seulement de l’ouvrage (comme, en droit, avec Dalloz et Numilog — par exemple).

Revues

Jean, Rémy, Lionel, Yann, Gary et Marie-Louise nous donnent les liens vers les collections anciennes de revues juridiques dans Gallica : quelques exemples :

Pour l’épluchage détaillé des collections de Gallica en revues juridiques, voir sur ce blog Les collections anciennes de revues juridiques dans Gallica.

Malgré les lacunes de Gallica, c’est là, sur le contenu en revues juridiques, que la comparaison avec Google Books fait très mal au moteur américain. Car sur GG Books, pas grand’ chose de comparable :

  • Bulletin des lois : 1800, 1807, 1833. Apparemment, c’est tout
  • Recueil Duvergier : 1797-1912 avec d’énormes trous. Impossible de déterminer avec précision le contenu réel, les résultats ne possèdent souvent pas de date
  • etc.

Les limites du contenu juridique de Gallica

Entre 1919 et 1939, à peine une dizaine d’ouvrages en droit commercial sur Gallica [2]. Les dates du Bulletin de la Cour de cassation et du Recueil et autres périodiques Dalloz sur Gallica ne sont pas non plus ce qui intéresse vraiment les professionnels. A ce titre, l’arrivée annoncée (2011) des années 1910-1942 (Bull. civ.) et 1910-1953 (Bull. crim.) est une excellente nouvelle [3].

Conclusion : Gallica meilleure que Google sur les livres français et le juridique, reste les limites de son moteur

En résumé :

Point de comparaisonGallicaGoogle Books
Notice de l’ouvrage ++  [4]
Ergonomie ++ +++
Formats de téléchargement +++ +
Mode audio oui non
Taux de reconnaissance OCR + +
Qualité copie image ++ +
Accès direct aux chapitres non oui
Classement matière oui non
Tags non oui
Richesse des fonctionnalités de recherche ++ ++
Puissance du moteur de recherche (coef. 2) + +++
Accès aux autres éditions de l’ouvrage non oui
Contenu juridique (coef. 2) +++ +
Fils RSS oui non
Total3 oui / 6 ; 19 +3 oui / 6 ; 15 +

Il est intéressant de comparer cette analyse de Gallica contre Google Book avec celle que je faisais de la version 1 en 2005, toujours comparée à GB [5]. L’amélioration de Gallica est manifeste. Au niveau des fonctionnalités, Google a peu progressé. Sur le contenu français, on peut dire que Gallica est devenue très "concurrentielle".

Emmanuel Barthe
bibliothécaire documentaliste juridique

Une page mal scannée de Google Books :

Notes de bas de page

[1] Merci aussi à Hughes-Jehan Vibert et Lionel Maurel et Jean Gasnault pour leur contribution à la discussion.

[2] Je dis bien "ouvrages", autrement dit "livres", "traités" et non pas "péoridiques" ou "revues".

[3] Mais les années les plus intéressantes sont les années 1945-1960, car la plupart des collections papier privées et des bases de données commerciales commencent là, en 1960 — et encore !

[4] Là, je met carrément rien à Google Books car sa notice est d’une indigence ...

[5] Lire notre article Les limites de Google Print/Google Book Search en matière d’ouvrages de droit français.

Répondre à cet article

6 Messages de forum