Archivage du Web: constitution d'une esthétique 1.0

Author·s:

Research Blog:

Culture du web, enjeux techniques et réalisations

Pour un concept qui revient de manière cyclique dans l’actualité, il est étonnant de penser que le Web 1.0 n’existait pas au départ… du moins jusqu’à l’invention du Web 2.0. En effet, c’est avec l’arrivée de ce concept marketing que nous avons commencé, a posteriori, à spéculer sur une éventuelle numérotation du Web et que nous avons pris toute la mesure des changements en profondeur induits par ce phénomène.

Précisons tout de suite qu’il n’y a pas de définition «officielle» du Web 2.01, bien qu’il y ait un large consensus autour du fait que celui-ci regroupe une vague de sites et de plateformes utilisant véritablement l’effet de réseau dans la création et la transmission de l’information: blogues, plateformes collaboratives, et sites de partages tels Flickr sont habituellement les exemples les plus souvent évoqués pour marquer le concept.

Très rapidement dans la foulée, on s’est mis à s’interroger sur ce que serait le «Web du futur»… et le concept de Web 3.0 faisait son apparition. Par celui-ci, on entend généralement le «Web sémantique», c’est-à-dire la mise en réseau d’informations automatiquement interprétables par des machines. Le concept existe depuis plusieurs années, mais n'avait pas connu la même popularité2.

L’archivage du Web et la constitution d’une esthétique 1.0

De nombreux contenus publiés en ligne au début du Web sont toujours en place. En effet, tant que l’hébergement des sites Web est maintenu et renouvelé, les informations demeurent disponibles. Notons par ailleurs que le premier site en ligne est encore disponible sous sa forme originale3!

De plus, caractéristique propre aux contenus numériques, de nombreux contenus ont connu des rééditions en étant soit publiés sur des sites «miroirs», soit en étant intégrés à des ensembles plus grands (notamment les archives d’articles de journaux et de revues). Ce qui attire notre attention au niveau du Web 1.0 est donc la part manquante, c’est-à-dire ce qui a disparu de la circulation et qui n’est plus publiquement accessible.

On a d’abord commencé à s’intéresser à la conservation du Web lorsqu’il fut évident que l’information en ligne était potentiellement manipulable, que ce soit pour des raisons politiques ou économiques4.

Le premier cas majeur de disparition d’un pan entier du Web fut Geocities. Fondé en 1994, puis racheté par Yahoo en 1999 au sommet de sa gloire, ce service fut définitivement fermé en 2009. Étant le premier outil de publication gratuit à être adopté massivement par des utilisateurs individuels, de nombreuses personnes y ont fait leurs premières armes en publication Web. Puisque les individus y conservaient la possibilité de mettre en forme leurs pages (contrairement à MySpace, par exemple, ou encore Facebook qui sont fortement contraignants au niveau de la forme), ces premières expériences, pour la plupart au graphique malheureux, donnent aujourd’hui leur charme au Web 1.0, au point où l’esthétique de cette époque est couramment reprise par différents projets d’art Web5. Voici les principales archives ayant été créées pour témoigner de ce phénomène:

Jeffrey Zeldman, guru des standards Web, évoque un cas très intéressant dans lequel une communauté souhaitant rééditer un blogue est entrée en conflit avec la famille de la défunte, probablement plus conservatrice que l'auteure disparue. Puisque les données n'appartiennent pas au domaine public avant 50 ans suivant le décès d'un auteur, pourquoi ne pas prépayer son hébergement pour sauver ses écrits de son vivant6?

Le Web 1.0 et son archive: Wayback Machine

Bien qu’il existe d’autres archives du Web 7, Wayback Machine demeure à ce jour la seule digne de ce nom pour retrouver un tant soit peu le Web dans l’état où il était lors de sa consultation par les internautes du 1.0. Avec ses milliards de pages provenant de millions de sites, et avec des archives remontant jusqu’en 1995, il s’agit tout de même d’une contribution majeure à l’histoire de l’Internet.

Pour toutes les qualités qu’il possède, il faut toutefois noter que la navigation du Wayback Machine se limite souvent aux pages principales des sites, et qu’il est rarement possible d’effectuer une navigation complète à l’intérieur de celles-ci. Malgré l’abondance de pages qui y sont enregistrées et mises à la disposition du public, il faut s’attendre à une navigation fractionnée, dont les images sont souvent absentes.

Google, de loin le propriétaire de la plus large archive privée du Web au niveau international, a pendant une certaine période offert des pages archivées à même ses résultats de recherche, c’est-à-dire la possibilité de consulter une page n’étant plus en ligne. On peut toujours accéder à ce service, bien que son utilité soit limitée aux pages hors-ligne, puisqu’il n’offre que la plus récente copie, sans possibilité de consulter l’historique d’un site8.

D’autres archives… disparues

Au niveau local, la Toile du Québec fut le plus grand répertoire de sites à l’époque du Web 1.0. Mais comme il s’agissait d’un répertoire, et non d’une archive, la Toile ne possédait que des métadonnées sur les sites (titre, adresse et description), et non les sites eux-mêmes. Il n’y a donc pas à ma connaissance d’archives du Web québécois hors du Wayback Machine9.

Pour la petite histoire, notons que suite au rachat de la Toile du Québec par Québécor Média, celle-ci a survécu quelques années pour être enfin fermée en novembre 201410. Ironiquement, alors qu’un site posthume fut temporairement mis en place, au bout de quelques mois, cette adresse n’était plus accessible, et redirigeait vers la page d’accueil de Canoë. L’historique officiel de la Toile du Québec est donc aussi perdu.

Conclusion

La question de la conservation des éléments culturels importants soulève donc plusieurs questions, notamment: qu’est-ce qui est important? Quoi conserver? Qui peut déterminer la valeur patrimoniale des contenus aujourd’hui produits? Le Web a-t-il vraiment une valeur patrimoniale, lui qui a à peine 25 ans?

Derrière les bonnes intentions, ces projets d’archivages nécessitent de nombreuses ressources, ce qui soulève la question: «qui doit conserver?» On pense aux bibliothèques nationales, bien sûr, en premier lieu11. Quant aux projets académiques, la production de connaissances pour la recherche demeure une bonne motivation, même s'ils ont eux-mêmes leurs propres enjeux de survie. Qui conserve l’information lorsque le financement est épuisé?

Finalement, on peut aussi se demander si le droit à l’oubli n’est pas une bonne chose, dans une certaine mesure. Cela soulève au passage la question de la conservation de nos données actuelles, puisqu’elles reposent majoritairement sur différents réseaux sociaux privés, qui contrairement aux pages d’antan, seront difficilement navigables au sein d’une archive Web. Mais en regardant l'histoire Web avec un peu de recul, on ne peut que constater que toutes nos certitudes sur la pérennité de nos informations sont systématiquement déjouées. Attendons-nous donc à la même chose pour Facebook, et commençons à réfléchir à la conservation de nos informations personnelles.

1. La définition la plus étoffée peut se trouver sur cette page Wikipédia: https://fr.wikipedia.org/wiki/Web_2.0
2. D’autres voient plutôt le concept d’«Internet des objets» comme le véritable web 3.0. Ceci a du sens dans la mesure où il s’agit d’un saut qualitatif pour le réseau, puisque le protocole d’attribution des adresses devra être revu et élargi pour faire place à ces objets. On peut avoir un aperçu du concept ans ce vidéo: https://www.youtube.com/watch?v=xU748NZC1tk
3. Voir: http://www.todayifoundout.com/index.php/2010/05/the-first-website-ever-made
4. Voir: https://en.wikipedia.org/wiki/History_of_Wikipedia#Controversie
5. À ce sujet, voir le plus récent numéro d’ETC MEDIA, notamment sur le travail d’Émilie Gervais. ETC MEDIA, #108: «Dans les Internets», 30 juin 2016
6. Voir: http://www.zeldman.com/2010/01/21/posthumous-hosting-and-digital-culture
7. Notamment: http://internetmemory.org/en . http://archivethe.net/en/index.php/service/. http://www.webcitation.org/
8. Pour consulter ce site, il faut utiliser l’exemple suivant, en remplaçant la dernière partir par le site Web dont vous souhaitez voir la copie: http://webcache.googleusercontent.com/search?q=cache:http://nt2.uqam.ca
9. Il me fera plaisir de mettre cet article à jour si jamais quelqu’un souhaite se manifester à ce sujet.
10. http://affaires.lapresse.ca/economie/technologie/201411/21/01-4821096-la-toile-du-quebec-nest-plus.php
11. Du côté américain, la Librairie du Congrès a déjà déterminé que les tweets ont une valeur patrimoniale (notamment pour les primeurs journalistiques) et ont été systématiquement archivés. https://blog.twitter.com/2010/tweet-preservation

Recherche*

Research Blogs