Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

Archivez les fonds juridiques publics — certains risquent de disparaître

Sommaire

Pourquoi archiver les sites web publics ?

RGPP

Les plans d’économies de l’Etat (RGPP, MAP, Transformation publique) [1] n’ont pas cessé depuis la présidence Sarkozy. Les conséquences pour les Universités et les budgets d’acquisitions et d’abonnements des bibliothèques universitaires sont connues : fortes baisses depuis environ 15 ans des dépenses d’acquisition de livres, surtout au vu de l’accroissement du nombre d’étudiants, et depuis peu suppression d’abonnements à des revues papier voire résiliation des licences d’accès à certaines plateformes en ligne (surtout au vu de l’augmentation très rapide des frais d’APC dans le cadre de l’Open access) [2] [3].

Mais les sites web publics et leurs documents, seront-ils, eux, épargnés par la réduction des dépenses publiques ? Et par la chasse aux textes de niveau infra-réglementaire, autre menace récurrente ?

Menace fantôme ?

On pourrait penser que tout ça, c’est de la spéculation. Ou que la menace n’est que très virtuelle vu que le numérique ne coûte pas cher.

Pourtant, produire et gérer des données publiques, les publier sur un site web, faire héberger ce site, l’administrer et le faire évoluer, tout cela a un coût. Pour donner un ordre de grandeur, le seul hébergement du site d’une grande institution publique (incluant l’assistance au webmestre) coûte au bas mot quelques dizaines de milliers d’euros par an [4]. Avec le salaire du webmestre, cela dépasse les 50 000 euros TTC. Les plans d’économies de l’administration ne sont donc guère susceptibles d’épargner les sites web publics.

De plus, il y a des précédents : des sites non archivés par l’administration suite à la disparition de l’organisme qui les publiait. A commencer par le Forum des droits sur l’Internet (FDI).

Les éditeurs ne reprennent pas tout, loin de là

Il est donc probable qu’il faille s’attendre à des réveils douloureux, surtout pour les particuliers, associations et petites structures qui n’ont pas les moyens ou n’ont pas fait le choix de payer un abonnement à une plateforme en ligne d’éditeur.

Mais pour les grosses structures aussi. Car tout n’est pas repris sur Lexbase, Lextenso, Lexis 360, Lamyline, Navis, Dalloz-Avocats, Groupe Revue Fiduciaire etc. Et quantité de "petits" documents, comme une page isolée, un organigramme, une liste de mots-clés ne le seront jamais.

Les documents publiés sur leur site par les AAI, commissions, instituts etc. participent à l’interprétation et la création du droit positif

Pour les juristes, l’utilité voire la nécessite de cet archivage préventif est évident : les textes et décisions des commissions, autorités etc., même s’ils ne sont pas des textes *officiels*, apportent très souvent une interprétation, un éclairage voire sont le seul document pour ce faire. Exemple : le droit de l’anonymisation (on dit maintenant pseudonymisation) des décisions de justice a longtemps reposé sur une recommandation du 29 novembre 2001 puis une position de 2006 de la CNIL, la loi Informatique et libertés étant vague et confrontée au principe de la publicité des décisions, avant que 14, 17 et 18 ans plus tard le Conseil d’Etat puis le RGPD et enfin la loi de réforme de la justice de 2019 se prononcent [5].

Or il n’existe généralement aucun recueil/site bis compilant les textes et décisions de ces commissions, autorités etc. Si leurs sites web et donc leurs documents disparaissent d’Internet, seuls les personnes et structures les ayant sauvegardé seront au courant de leur contenu et les pourront les utiliser et les invoquer en justice. La preuve de leur existence étant justement faite grâce à l’archivage. Sans aucun débat si ça vient de data.gouv.fr et avec sinon. Mais il suffit de prendre quelques précautions, comme l’utilisation d’outils qui en préservent la structure, comme les logiciels de "mirroring", dits aussi aspirateurs de sites web, ou Archive.org (voir la dernière partie de ce billet).

Quels fonds juridiques publics archiver : quels critères de sélection ?

Stéphane Cottin avait commencé à définir les critères de sélection des fonds et des sources à archiver [6]. Son essai est surtout valable pour une institution ou une grande bibliothèque publique.

Du point de vue d’une structure du secteur privé, les critères d’archivage vont probablement dépendre des spécialités de la structure de l’archiveur. Du "à la carte". Ma liste suivante, par exemple, privilégie le droit des affaires.

Ce biais de la spécialité explique pourquoi certaines structures privées possèdent encore les travaux législatifs papiers de la loi de 1966 sur les sociétés commerciales.

Quels fonds archiver en priorité ?

Selon nous :

 Le fonds circulaires.gouv.fr sur data.gouv.fr [7] data.gouv.fr possède les circulaires et instructions supprimées lors des deux grandes vagues, en février puis été 2018, de nettoyage à la paille de fer de cette base de textes infra-réglementaires et mal aimés du Premier ministre [8]. Mais c’est un véritable "challenge" car les fichiers compressés sont lourds donc lents à télécharger, et il y en a des centaines. En pratique, même avec une connexion d’entreprise, on en a pour la journée ou presque. Si on doit s’arrêter, il faut savoir exactement où on en est pour ne pas télécharger trois fois le même fichier.

 Les traductions en anglais, espagnol, allemand, italien, arabe et chinois de certains Codes et lois sur Legifrance ("Traductions du droit français") — elles vont disparaitre de la prochaine version prévue pour avril 2020 au plus tard car ne sont plus tenues à jour depuis longtemps. Pour autant, elles restent uniques et une base. [Mise à jour à octobre 2022 : ces traductions restent trouvables sur archive.org.]
Idem les traductions de texte sur les sites ministériels (trouvables à partir de Legifrance)

 Les Bulletins officiels (BO) des ministères

 Les sites des AAI et autres autorités, à peu près une fois par an. Exemple : le texte intégral de certaines délibérations CNIL ont disparu du nouveau site. Par exemple, seraient prioritaires en droit des affaires les sites des autorités suivantes :

  • Autorité des marchés financiers (AMF)
  • Autorité de régulation des transports (ex-Autorité de régulation des activités ferroviaires et routières, ARAFER)
  • Commission nationale de l’informatique et des libertés (CNIL)
  • Haut conseil du commissariat aux comptes (H3C)
  • Haute autorité pour la diffusion des œuvres et la protection des droits sur Internet (HADOPI)
  • Autorité de la concurrence (ADLC)
  • Autorité de régulation des communications électroniques et des postes (ARCEP)
  • Autorité de sûreté nucléaire (ASN)
  • Autorité de régulation des jeux d’argent et de hasard en ligne (ARJEL)
  • Commission d’accès aux documents administratifs (CADA)
  • Commission de régulation de l’énergie (CRE)
  • Défenseur des droits
  • Autorité de contrôle prudentiel et de résolution (ACPR)
  • Bureau central de tarification (BCT, secteur des assurances)
  • Commission des infractions fiscales
  • Commission des participations et des transferts
  • Commission des clauses abusives (CCA)
  • Comité de coordination du registre du commerce et des sociétés (CCRCS). Voir infra.

 Les sites et surtout les rapports et autres publications de certains instituts et des 85 commissions consultatives — certains loin d’être inutiles pourtant — que le Gouvernement supprime par décret du 18 décembre 2019, notamment :


Le CCRCS a disparu en 2020

 Les fameuses lois "inutiles" que le Sénat a proposé avec succès d’abroger massivement (proposition de loi tendant à améliorer la lisibilité du droit par l’abrogation de lois obsolètes, déposée le 3 octobre 2018 et devenue loi n° 2019-1332 du 11 décembre 2019 tendant à améliorer la lisibilité du droit par l’abrogation de lois obsolètes->https://www.legifrance.gouv.fr/eli/loi/2019/12/11/2019-1332/jo/text] (resultant de la mission du Sénat dite B.A.L.A.I.) [9].

 Les traités bilatéraux dans la base PACTE des traités et accords de la France, chaque organisation internationale conservant les traités multilatéraux sur son propre site.
Encore que ... Vu la dégradation des finances de certaines d’entre elles, il serait prudent de les archiver. Le site de l’UNESCO, par exemple [10].

 Les conventions de double imposition et d’autres fonds de la DGFIP (que sont donc devenues la version anglaise des conventions qui était sur le site, et les notes bleues ?).

 Le site servicepublic.fr

 Les dossiers législatifs des grandes lois économiques et financières et en matière de droit civil, pénal, de procédure civile et de procédure pénale.

Le rôle de l’Internet Archive et du dépôt légal du Web français à la BNF

Archive.org

Tout le domaine gouv.fr est archivé sur l’Internet Archive — qu’on appelle souvent par son nom de domaine archive.org. C’est un plus.

Après, archive.org est un gestionnaire de fichiers archivés, pas un un moteur de recherche. Même s’il en propose un, ce moteur est très limité. Or de nos jours, justement à cause des moteurs de recherche web, plus personne ne prend la précaution de mémoriser dans ses favoris (bookmarker) chaque document intéressant. Autrement dit, pour exploiter efficacement archive.org, il faut connaître à l’avance l’adresse web profonde (URL) de la page visée. Mais comme on a Google, on ne mémorise plus les URL. Donc on connaît rarement à l’avance l’URL. Donc on ne peut pas se servir efficacement d’archive.org. La boucle est bouclée.

Autre limite : le bot d’archive.org passe quand il en a les moyens et il ne va pas très profond. En plus, il ne récupère les métadonnées que quand elles existent et quand elles sont bien exposées.

Exemple du JO de Wallis et Futuna : le site de l’administrateur supérieur les diffuse sur une page assez profonde http://www.wallis-et-futuna.pref.gouv.fr/Publications/Publications-administratives/Journal-Officiel-de-Wallis-et-Futuna-JOWF qui n’est pas crawlée habituellement par archive.org. En outre, le site ne conserve en ligne que 6 mois de JO.

Pour contrebalancer ces inconvénients, n’importe qui peut se créer son "morceau personnel" de l’Internet Archive :

Ainsi, on peut savoir où se trouvent des collections et des documents qu’on aurait sinon beaucoup de mal à localiser dans archive.org Et comme c’est bien indexé par Google, on peut faire ce genre de moteur de recherche ad hoc : ici sur l’archive du JOWF.

D’autres outils similaires existent [11] :

  • CachedView : un métamoteur
  • Archive Today : à la fois une alternative à la WayBack Machine et un outil pour archiver soi-même une page web
  • Perma.cc : un outil pour archiver soi-même une page web
  • le cache de Google.

Le dépôt légal du web français par la BNF

A noter que les efforts de la BNF avec l’application de "crawl" heritrix (celle d’archive.org) et le dépôt légal du Web autorisé depuis la loi DADVSI de 2006 [12] ont permis la préservation/archivage/conservation du web français [13].

Les sites en .gouv.fr et les sites institutionnels (Conseil constitutionnel, Cour de cassation, Conseil d’Etat, autres juridictions, Assemblée nationale, Sénat et AAI) sont systématiquement archivés par le dépôt légal numérique. On peut le vérifier en consultant la liste des "sites d’administration" collectés de 2011 à 2017 dans le cadre des collectes thématiques du Web par la BNF.


Extrait de la liste des "sites d’administration" archivés régulièrement par la BnF

Hélas, pour consulter les sites publics archivés par le dépôt légal de l’Internet :

  • il faut se déplacer sur place à la BNF (Paris, 13e arrondissement). Pour des raisons légales gravées dans le marbre de l’article R 132-23-2du Code du patrimoine (par le décret d’application de 2011 de la loi DADVSI)
  • elles ne sont même pas consultables dans les salles ouvertes à tous contre un droit d’entrée (Haut-de-jardin) mais uniquement au Rez-de-jardin. Autrement dit, ces archives du web français sont réservées aux chercheurs sur accréditation [14].

Autant dire très peu pratique. Les chercheurs universitaires y iront peut-être, les professionnels du droit, les associations et les particuliers probablement jamais vu les délais et l’accréditation requise.

Se débrouiller soi-même "à la main" ou avec HTTrack

Vous pouvez aussi, bien sûr, télécharger "à la main" tous les documents intéressant votre pratique sur votre ordinateur, votre cloud ou un serveur de votre structure. Et répétons le, il n’y a dans 95% des cas pas de droit d’auteur donc pas d’autorisation à demander.

Mais au-delà de quelques centaines de documents, vous-même, l’assistante ou le collaborateur que vous aurez chargé de ce travail va crier grâce. Parce qu’il faut non seulement télécharger, mais aussi :

  • sélectionner, donc définir des critères précis
  • renommer les fichiers pour que leur nom soir parlant, précis et comporte au moins le type du document, sa date et l’organisme auteur
  • et classer ces fichiers.

C’est chronophage et d’un ennui mortel. Sans compter que c’est à mettre à jour tous les 6 mois.

In fine, si vous n’êtes pas un "fana" de la solution Archive.org — qui a quand même deux grands avantages : pérennité et puissance de stockage —, vous serez tenté d’utiliser un logiciel aspirateur de sites web. HTTrack, disponible en open source, est le dernier resté gratuit.

De conception française, il existe en version Windows. Oui, la dernière version est de 2017, mais elle marche très bien si vous la paramétrez correctement. Une importante équipe a conçu ce logiciel et son chef de projet, Xavier Roche, chez Algolia depuis 2018, a travaillé 13 ans chez Exalead, et travaille toujours sur le système d’exploitation libre Debian et bien sûr sur HTTrack. Une solide documentation, y compris pour développeurs, est en ligne, incluant un guide illustré pour débutants, un manuel détaillé et une FAQ.

Cela dit, il vous faudra quand même :

  • un minimum de compétences informatico-Internet à votre disposition
  • un espace de stockage de l’ordre de quelques centaines de giga-octets minimum si vous suivez la liste supra. Rien que pour circulaires.gouv.fr de l’origine à 2014 compris, cela fait 19 Go ... Globalement, 1 To serait plus prudent
  • du temps devant vous, vu qu’on rencontre forcément des problèmes en cours de téléchargement et dans le paramétrage du logiciel [15]. Pour l’assistance, un forum, toujours actif (mais en anglais), existe sur le site du logiciel. Mais il vaudra mieux avoir une âme charitable et compétente en HTML, CMS et autre JavaScript dans votre service informatique ;-) Cela dit, beaucoup de sites web officiels sont relativement simples.

J’encourage tous mes collègues documentalistes à mettre en œuvre cette préservation en liaison avec leurs services informatiques. Si les règles internes sont trop lourdes (certaines structures vont opposer le droit d’auteur (!), la cybersécurité ou l’interdiction d’installer des logiciels "non standards" sur votre PC) envisagez de confier cette tâche à un proche s’y connaissant en "aspirateurs" et demandez lui de rapatrier le tout sur une grosse clé USB.

Emmanuel Barthe
recherchiste juridique, formateur veille et recherche en droit

Notes

[1Révision générale des politiques publiques sous la présidence Sarkozy, Modernisation de l’action publique sous Hollande puis Transformation publique depuis 2017. Le nom change, les buts restent les mêmes.

[2Les bibliothèques au défi des compressions budgétaires, du numérique et de la laïcité, par Pierre Texier, Archimag, 3 mai 2017.
Extrait du rapport 2016 de l’’Inspection générale des bibliothèques (IGB) publié le 30 mars 2017 : « dans l’enseignement supérieur, les dépenses documentaires des universités ont baissé en valeur absolue dans une période de croissance de la population étudiante. De 2011 et 2015, elles ont en effet diminué de 10% en moyenne [...] En ratio par étudiant, les dépenses documentaires des services communs de documentation ont baissé de 15% en cinq ans », souligne Pierre Carbone, doyen de l’IGB. Voir aussi le rapport (thématique) n° 2016-A01 de l’IGB intitulé Les dépenses documentaires des universités du 16 septembre 2916. Extrait p. 7 : « Globalement pour 24 établissements (en exceptant 1 université ayant fourni des séries incomplètes), le montant total des dépenses d’acquisition documentaire hors Elsevier a baissé de 10,61% entre 2011 et 2015. Seules 4 universités sur 24 voient leur budget documentaire augmenter de + 10% à +25% : Rennes 2 (+11,20%), Strasbourg (+11,24%), Lyon 3 (+22,77%), Toulouse 3 (+24,49%). ».

[3#SauveTaBU : la résistance s’organise contre la réduction de 20% du budget des bibliothèques de l’Université de Nantes, par Clémence Jost, Archimag, 22 mars 2019. Sur la réduction du budget 2019 des BU de l’Université de Nantes, lire : Nantes : bibliothèque amputée, Université condamnée ?, par Olivier Ertzscheid, Affordance.info, 28 février 2019.

[4Réputation, pérennité, savoir-faire, propriété intellectuelle et règles des marchés publics oblige, il est malheureusement difficile d’envisager contracter avec un petit acteur moins cher, même si cela reste techniquement possible et se voit parfois.

[5Pendant très longtemps, aucune juridiction ne se prononça sur l’application de la loi Informatique et libertés du 6 janvier 1978 aux décisions de justice, autrement dit sur la problématique de l’anonymisation des décisions de justice (depuis l’entrée en application du RGPD, on parle de pseudonymisation ; sur le régime français actuel de la pseudonymisation des décisions de justice, voir sur ce blog Anonymisation des décisions de justice : le point sur les dernières évolutions et leurs finalités). Il fallut la recommandation de la CNIL, l’autorité administrative indépendante (AAI) en charge du domaine du droit des données personnelles (à l’époque, on disait données ou informations nominatives) en 2001, mise à jour par sa position de 2006, pour que des lignes directrices un tant soit peu officielles (la CNIL est en effet en large part un organisme consultatif, ce qui réduit la portée de ses recommandations) guident les acteurs et servent de référence, faute de précision dans la loi. Ce n’est que le 23 mars 2015 que le Conseil d’Etat rend sa première décision (affaire Lexeek), qui va donc enfin faire jurisprudence. Et ce n’est finalement qu’en mai 2018 avec l’entrée en application du règlement (européen) général de protection des données personnelles (RGPD) qu’un véritable texte officiel (i.e. contraignant) confirme et amplifiant la position de la CNIL. Pour un texte contraignant *et* détaillé, il faudra attendre la loi de programmation et de réforme de la justice du 23 mars 2019 et son article 33. 2001-2019 : 18 ans avec la position de la CNIL pour seul puis principal repère. Voilà l’utilité des AAI et commissions et donc celle d’archiver leurs sites.

[6Liste exhaustive des données juridiques qui devraient être conservées et accessibles sur Internet « éternellement » par les pouvoirs publics, par Stephane Cottin, Actes de la conférence Law via the Internet Conference / Journées Internet pour le Droit, Paris, 3 novembre 2004.

[7Voire tout data.gouv.fr ? Vraie question.

[9JORF n° 288 du 12 décembre 2019 texte n° 1. L’initiative a été prise par le vice-président UDI du Sénat, Vincent Delahaye, du lancement au Sénat d’une mission dite "B.A.L.A.I." (Bureau d’Abrogation des Lois Anciennes Inutiles). Le projet a été présenté fin janvier 2019 par le président du Sénat, Gérard Larcher, lors du dernier bureau, qui en a validé le principe.
Cette mission "B.A.L.A.I." est chargée d’identifier les textes qui ont fait leur temps, de faire la chasse aux fossiles législatifs, dont l’esprit s’est évaporé mais dont la lettre perdure, comme gravés de manière indélébile dans le marbre. Ce stock de lois est de nature à rendre leur accès plus ardu et leur compréhension plus épineuse, en ne permettant pas de séparer les lois réellement effectives de celles qui n’ont plus qu’un intérêt archéologique.
La proposition de loi devenue loi s’est limité, pour l’heure, aux lois adoptées entre 1800 et 1940. Elle a prévu l’abrogation de 44 d’entre elles. Exemple : la loi du 12 mars 1900 ayant pour objet de réprimer les abus commis en matière de vente à crédit des valeurs de Bourse (20°), dont les dispositions du seul article encore en vigueur ont été reprises aux articles L. 512-102 et L. 571-11 du Code monétaire et financier.
Dans cette recherche de la loi perdue, les sénateurs veulent aussi être épaulés par des expertises externes, comme des professeurs de droit, le Club des juristes (un think tank juridique), ou pourquoi pas des éditeurs spécialisés dans le juridique et bien connus dans le secteur.

[10Le retrait des États-Unis en a fait un trou dans le budget de l’UNESCO.

[11Source : 3 moteurs de recherche pour trouver des archives d’un site web, par Fidel Navamuel, Outils Veille. Pour aller plus loin, voir ce tutoriel orienté OSINT : Using Internet archives in #OSINT and #SOCMINT : Services, tools, tricks, fil Twitter par Cyber Detective, 20 décembre 2021.

[12La base légale précise est aujourd’hui codifiée à l’article L 131-2 du Code du patrimoine.

[13Les archives du web à la BnF, Skén&graphie, 2 | Automne 2014.

[14L’article de Skén&graphie cité supra explique très bien la situation :
« Ces archives sont consultables uniquement dans les enceintes de la BnF, par des chercheurs accrédités. Elles ne sont pas consultables dans les salles ouvertes à tous moyennant l’acquisition d’une carte d’entrée, c’est-à-dire pas dans l’espace nommé « Haut-de-jardin », mais seulement dans les salles dites de recherche donc celles des sites François-Mitterrand (« Rez-de-jardin »), Richelieu, Louvois, à la Bibliothèque-musée de l’Opéra, mais aussi à la Maison Jean Vilar, antenne du département des Arts du spectacle à Avignon. En revanche, la loi n’autorise pas la communication des archives dans d’autres bibliothèques (exceptées les autres bibliothèques attributaires d’un exemplaire du dépôt légal, qui participent parfois à la sélection des sites pour certaines collectes) et encore moins la diffusion en ligne. C’est là encore un choix français qui n’était pas évident : le site de la fondation Internet Archive est librement accessible sur le web. La protection du droit d’auteur et du droit à la vie privée, ainsi que l’impossibilité de retirer un site en particulier des archives du web à la BnF expliquent ce choix (Internet Archive en revanche est en mesure de soustraire un site de la consultation en ligne sur simple demande). »

[15Pour en avoir une idée (non exhaustive), lire Copier des sites Web (voir les slides et illustrations), par Xavier Roche (HTTrack), Conférence BNF, 22 avril 2004.