Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

Google Books : des risques pour les bibliothèques

Les centres d’information face aux moteurs : au delà des outils de recherche
Moteurs de recherche et autres outils informatiques : les bibliothécaires et les documentalistes font mieux et depuis longtemps

[ NB : ce billet, initialement publié en décembre 2005, a été mis à jour en avril 2024. Quelques outils ont changé. Le constat, lui, n’a pas changé. ]

Grâce à un billet d’Olivier Ertzscheidt [1] (affordance.info), je tombais sur un magnifique article sur Google Book Search (ex-Google Print), parfaitement argumenté. Il m’a donné envie de préciser la valeur des professionnels de l’information et celles de leurs centres d’information.

Les bibliothèques et centres de documentation sont plus que la somme de leurs ressources

A Risky Gamble with Google, par Siva Vaidhyanathan, "assistant professor" de culture et communication à l’Université de New York, The Chronicle Review vol. 52 n° 15 p. B7, 2 décembre 2005 (accès réservé sur chronicle.com, accès libre ici et "reviewed" sur la base ERIC de l’Institute of Education Sciences)

Quelques citations, que l’on peut résumer ainsi : « Pour leurs utilisateurs, les bibliothèques sont plus que la somme de leurs livres » :

« It means making sense of what a library signifies to a community and the individuals in that community. Libraries are more than resources. They are both places and functions. They are people and institutions, budgets and books, conversations and collections. They are greater than the sum of their books. The presumption that Google’s powers of indexing and access come close to working as a library ignores all that libraries mean to the lives of their users. All the proprietary algorithms in the world are not going to replace them.
« We need services like that provided by Google Library. But they should be "Library Library" projects. Libraries should not be relinquishing their core duties to private corporations for the sake of expediency.
« We have become obsessed with seeing everything in the universe as "information" to be linked and ranked. We have focused on quantity and convenience at the expense of the richness and serendipity of the full library experience. We are making a tremendous mistake. »

L’auteur dans sa conclusion soutient que de tels projets devraient être ceux des bibliothèques (une pierre dans le jardin du président de la BNF, de l’époque Jean-Noël Jeanneney) et il souligne également la richesse, la valeur humaine et politique de la bibliothèque — et aussi du centre de documentation en entreprise ajouterais-je — : le centre d’information construit une communauté humaine et soutient ses valeurs.

A mon avis, pour que de tels projets restent ceux des bibliothécaires et documentalistes, il serait impératif que ceux-ci cessent de laisser aux seuls informaticiens le monopole de l’implémentation des outils documentaires et bibliothéconomiques. L’informatique est suffisamment adulte aujourd’hui pour être à la portée de qui prend le temps de s’y consacrer. Les professionnels de l’information peuvent et doivent se réapproprier les outils informatiques, surtout avec les possibilités offertes par le XML [2] et l’informatique open source actuelle [3]. Mieux, les meilleures équipes peuvent et doivent, tels des chercheurs, créer de nouvelles applications documentaires. C’est ce à quoi appelle, en somme, Leo Waaijers, responsable du projet DAREnet d’accès aux ressources numériques bâties par les universités hollandaises, dans son article From libraries to "libratories" [4]. Après tout, les premiers bibliothécaires étaient d’abord des lettrés, ils maîtrisaient l’écriture, c’est-à-dire l’outil de l’époque.

Siva Vaidhyanathan rappelle ainsi que les fondateurs de la démocratie américaine estimaient que la République ne pouvait survivre sans bibliothèques. Pour ma part, je pense notamment aux animations assurées en bibliothèque pour les enfants, à la promotion de la lecture publique faite par les bibliothécaires en zones rurales ou banlieue, aux expositions thématiques d’ouvrages sur des sujets comme les droits de l’Homme ou la liberté de la presse. Je pense aussi aux espaces pour que les collégiens, les lycéens et les étudiants puissent faire leurs devoirs, avec les encyclopédies et les conseils des bibliothécaires sous la main. Et surtout, on peut se souvenir de cette atmosphère de travail intellectuel ou bien de ces enfants perdus, heureux, dans leurs bandes dessinées, cette valorisation implicite de la pensée et de la littérature — et d’une pensée et littérature de qualité.

Les centres d’information en tant que sélectionneurs, hiérarchiseurs, fiabiliseurs et interprètes

Côté centres de documentation (ou plutôt documentalistes), on ne les prétendra pas indispensables à la démocratie, mais particulièrement utiles à la circulation d’une information fiable en entreprise. Surtout s’ils sont animés par des professionnels dynamiques et communiquants — ce qu’est la nouvelle génération : le portrait du bibliothécaire documentaliste perdu sous des piles de livres est complètement "à côté de la plaque".

Une bibliothèque, un centre de documentation, un/e bibliothécaire documentaliste ne se réduit pas non plus à ses outils informatiques semi-automatisés (catalogue et "discovery tool") ni aux bases de données auxquelles elle/il est abonné/e. Comme l’illustre cette discussion sur Twitter entre collègues. Un catalogue, c’est nécessaire — ne serait-ce que comme inventaire patrimonial — mais ce n’est pas assez sélectif, pas toujours pertinent et pas forcément adapté au lecteur.

Mes collègues et moi assurons des veilles spécialisées, créons des collections d’ouvrages et de revues, des intranets, des bibliothèques numériques, des bibliographies thématiques sélectives et des applications de KM, comme la base de modèles de contrats développée par Carole Guelfucci, documentaliste du cabinet d’avocats Bignon Lebray [5].

Si on veut vraiment comparer avec Google ou une plateforme en ligne, disons que nous faisons de l’humain et de l’adapté là où ils font de l’automatique, et que nous fiabilisons, hiérarchisons et interprétons une information massivement hypertrophiée. On ne peut pas transmettre des informations valables pour des humains sans qu’elles passent par un filtre et interprète humain. Les spécialistes de l’information sont ces filtres. Evidemment, il faut communiquer beaucoup, répéter et être pédagogue. C’est bien pour ça que j’insiste sur le fait qu’on a le droit voire le devoir de déranger un professionnel de l’information et le droit de poiser des questions (apparemment) idiotes. Je privilégie le contact email et oral et je circule de temps à autre entre les tables de la bibliothèque, dans les couloirs des bureaux et à la machine à café. A celles et ceux qui ne demandent rien mais sont clairement en recherche, je demande : « Tu trouves ? »

Un bon exemple (à nouveau) avec la veille, que les moteurs et éditeurs prétendent automatiser avec des alertes automatiques sur questions ou sur profil. Si on se limite pour sa veille à ce type d’outil, on déchante vite : on est noyé, on arrive pas à suivre, on rate une info importante. Pour plus de détails sur les limites humaines du suivi de l’actualité et les réponses que peut apporter un documentaliste, voir notre article Suivre l’actualité juridique ou Les défis de la veille.

Autre exemple de l’utilité de la curation réalisée par les bibliothécaires documentalistes : dans l’édition et la documentation juridique, le 80/20 règle aussi : les ouvrages et bases les plus réputés et cités "écrasent" les autres. Ça m’a été confirmé par les éditeurs même au niveau des articles de revues [6]. Le bibliothécaire documentaliste va proposer des ouvrages, des ressources situés dans les 80% méconnus et peu souvent utilisés. Savez-vous, par exemple, qu’en matière de droit des sociétés coopératives agricoles (SCA), la seule ressource fiable, à peu près complète et pas trop ancienne n’est pas un ouvrage sur les coopératives mais bien le Mémento Francis Lefebvre Agriculture ?

Car les bibliothèques et centres de documentation, ce ne sont pas seulement des documents en accès libre. C’est aussi — et de nos jours de plus en plus — une sélection des meilleurs documents. Malgré tous leurs algorithmes, les moteurs ne sélectionnent rien par eux-mêmes. Seuls les êtres humains sélectionnent. Google et les autres ne sont rien sans la pertinence des liens hypertextes. Et qui donc tisse tous ces liens si pertinents — i.e. ceux qui ne sont pas du spam ? Selon les mots d’Alain Giffard [7] : « Le classement sur Google est donc dépendant du travail des lecteurs du web, du nombre de renvois sur un site qu’ils éditent. Mais, au delà, ce classement vaut comme un dispositif hypertextuel d’ensemble, une présentation des différentes césures de l’infinité du web, une organisation des divers parcours de lecture. Bref la dépendance de Google à l’égard des lecteurs du web est double : individuelle et systémique. »

Incidemment, histoire de prouver que les moteurs n’ont pas l’apanage des solutions informationnelles innovantes, très loin de là [8], voici quelques exemples de services questions-réponses assurés principalement par des bibliothécaires [9]. Ainsi, par exemple, la BNF assure un service appelé SINDBAD (Service d’INformation Des Bibliothécaires A Distance) [10]. Il faut savoir que ce type de service est assuré en bibliothèques publiques et privées depuis des lustres, particulièrement dans les pays anglo-saxons. C’est ce qu’on appelle un service de référence.

La bibliothèque en tant que collection — ce que n’est pas un moteur ni Google Books ni non plus un discovery tool

Sur un plan plus politique, les projets actuels des moteurs en 2005 amenaient des interrogations formulées par des personnes comme John Mason et Alain Giffard [11] :

  • Une documentation avancée pour une bibliothèque au coeur de la production-circulation des savoirs ?, par John Mason, Google et la bibliothèque globale, débat virtuel, BPI, 15 juin 2005 : « Le projet de Google nous conduit donc à penser à nouveau la question des rapports entre une conception universaliste et générale voire totalisante de la mémoire, de La Bibliothèque, et une manière de concevoir la mémoire du monde numérique comme un agrégat vivant de mémoires différenciées, elles-mêmes dynamiques et de pratiques d’exploration exploitation de ces mémoires très variées. »
  • Sur la Bibliothèque Numérique Européenne, par Alain Giffard (dirige la Mission interministérielle pour l’accès public à la micro-informatique, à l’Internet et au multimédia), Ars Industrialis, séance du 5 novembre 2005, Concepts et pratiques des technologies cognitives à partir de la question des bibliothèques numériques :
    • « Chacune de ces bibliothèques a sa propre organisation, son intelligence de collection, qui seraient inévitablement perdues si tous les livres étaient redistribués dans une collection unique. » Là aussi, je fais le parallèle avec le travail des spécialistes de l’information du secteur privé : pour construire les bibliothèques papier ou numériques des structures qui les emploient, ceux-ci sélectionnent et orientent les acquisitions. Ce caractère est perdu lorsqu’on passe par les seules plateformes en ligne des éditeurs
    • « Absence d’utilisation des liens dans Google Print : il semble bien que le classement [reposera] sur l’audimat et ne sera pas à même de représenter et d’utiliser le réseau des lectures. Google Print s’éloignerait ainsi de l’hypertexte, de la philosophie du web, des idées même de Google. S’ajoute à cela, le parti pris, particulièrement décevant, de traiter séparément le web (Google), les livres numérisés (Google Print), et la littérature grise (Google scholar) : on aurait difficilement pu trouver manière plus rustique d’approcher le moteur de recherche multimédia, qui est au programme de la bibliothèque numérique depuis au moins dix ans. C’est assez cher payer l’abandon du point de vue des bibliothèques — l’oubli de la collection organisée au sein de la collection unique — et des lecteurs considérés, à la différence de la philosophie du web, comme de purs consommateurs. »

Les questions posées valent aussi bien pour Google que pour les autres moteurs de recherche.

On se demandait en 2005 s’il n’était pas temps de promouvoir des moteurs de recherche réellement publics et open source (exemple pour un moteur open source : Nutch, en partie basé sur Lucene et implémenté comme moteur interne sur le portail Droit francophone). On sait aujourd’hui que c’est toute une infrastructure extrêmement complexe et coûteuse [12], ce qui limite fortement toute initiative en ce domaine.

Emmanuel Barthe
documentaliste juridique

Notes

[1Actualité chargée. Search Engine Folies / Olivier Ertzscheid, affordance.info 9 décembre 2005.

[2XML pour les bibliothécaires, un manuel et un atelier est une traduction de l’ouvrage d’Eric Lease Morgan intitulé Getting started with XML, a manual and workshop. Eric Lease Morgan est bibliothécaire, responsable des ressources électroniques et de l’informatique à la Bibliothèque de l’Université Notre-Dame (Indiana - USA).

[3Lire par exemple Open source software in libraries : A workshop, toujours d’Eric Lease Morgan, et nos articles Logiciels documentaires open source : des avantages et des manques, art, art et art. Consulter aussi Biblioacid, « blog collaboratif pour les bibliothécaires mettant l’accent sur les ressources numériques et informatiques », et l’annuaire de liens Compubib, qui est accompagné d’une liste de diffusion éponyme.

[4From libraries to "libratories", par Leo Waaijers, responsable du projet DAREnet, First Monday vol. 10 n° 12 décembre 2005. Extrait : « Libraries are set to metamorphose into ‘libratories’, an imaginary word to express their combined functions of library, repository and collaboratory. »

[5Utilisation du logiciel ZeDoc pour la constitution d’une base de modèles, par Carole Guelfucci, responsable Documentation cabinet Bignon Lebray, novembre 2005. ZeDoc est développé et vendu par BSV, une société française qui a une grande expérience dans le secteur juridique.

[6Cela est aisé à mesurer pour eux grâce à leurs statistiques de consultation de leurs plateformes en ligne.

[7Sur la Bibliothèque Numérique Européenne, séance d’Ars Industrialis, 5 novembre 2005.

[8Dans la construction initiale de son algorithme, Google s’est largement appuyé sur la logique académique et bibliothéconomique des citations.

[9Biblio !Answers / Oliver Ertzscheidt et al., affordance.info 11 décembre 2005.

[10Extrait du site web de la BNF : « Poser une question à un bibliothécaire (SINDBAD) : Le SINDBAD (Service d’INformation Des Bibliothécaires A Distance) fournit gratuitement des références de documents (livres, revues, disques, film...) sur tous les sujets, et des informations factuelles : éléments biographiques, faits, chiffres, dates. Il fournit jusqu’à 15 références bibliographiques et limite ses recherches à 1 à 2 heures par réponse. Le SINDBAD ne répond pas aux demandes de bibliographies approfondies, d’estimations financières ou d’expertises, de recherches de généalogie ou d’héraldique, de consultations juridiques ou médicales, de dossiers de presse, d’analyses de marché, de réponses aux questions de concours, d’aide aux devoirs scolaires. Les informations données ne peuvent pas être utilisées à des fins commerciales. »

[11Signalées par Oliver Ertzscheidt dans son billet Prendre le temps ... (affordance.info, 7 décembre 2005).

[12De l’ordre de la dizaine de milliards de dollars US annuels, coût de départ.