AliceBots

Mise en contexte : l’évolution du Web

L’Internet est en constante évolution. Les professionnels de l’industrie des technologies de l’information s’entendent pour diviser cette évolution en trois stades bien distincts qu’ils ont nommés (très originalement): le Web 1.0, le Web 2.0 et le Web 3.0. Depuis l’entrée en vigueur du protocole HTML standardisé en 1995, l’Internet se voulait un ensemble de pages Internet reliées entre elles par des hyperliens. Ce principe simple gouverna l’ère du Web 1.0 jusqu’à l’explosion de la bulle des dot-coms en 2001. Pour se sortir du gouffre, l’Internet se réinventa grâce au succès de Google qui introduit le principe des robots d’indexation pour indexer le Web. L’ère 2.0 se caractérise donc par une volonté de développer des interfaces permettant aux internautes ayant peu de connaissances techniques d’utiliser l’Internet et d’y publier du contenu. Ce principe faites-le vous-même est donc cœur de la révolution du Web 2.0. Facebook, WordPress, Joola et toutes les autres plateformes permettant aux internautes de publier facilement du contenu sont issues du Web 2.0. Finalement, le Web 3.0, qui en serait à ses balbutiements, est un nouveau principe voulant que l’Internet soit plus accessible aux machines et aux robots. Pour se faire, on utilise des normes plus strictes dans l’encodage des pages Web de manière à rendre leur contenu plus accessible aux robots d’indexation des moteurs de recherches et autres scripts automatisés. Si le Web 2.0 voulait rendre l’Internet plus accessible aux Hommes, le Web 3.0 veut le rendre plus accessible aux Machines.

Les robots d’indexation et les AliceBots

Un robot d’indexation (ou web crawler ou web spider ou bots) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter des ressources afin de permettre à un moteur de recherche de les indexer. De nos jours, la majorité des moteurs de recherche utilise des robots d’indexation pour indexer le contenu du Web et déterminer le classement des sites. Ces robots visitent une page Internet et se divisent ensuite pour suivre tous les hyperliens de cette page vers d’autres pages Internet pour lesquelles ils feront le même processus et ainsi de suite. Le principe du World Wide Web étant que toutes les pages publiées sur Internet sont liées entre elles par un hyperlien, ces robots vont finir par visiter l’ensemble de l’Internet. Plus les robots rencontrent souvent la même adresse, plus ils la visitent, augmentant ainsi son classement dans le moteur de recherche.

En inversant ce modèle, Alice Media a pu développer des robots d’indexation (ou AliceBots) pouvant contacter les serveurs des moteurs de recherche, à travers différents serveurs proxy, pour leur fournir directement l’information à indexer sous forme de plans de sites au format XML. Tous comme les robots d’indexation des moteurs de recherche, les AliceBots se multiplient exponentiellement, multipliant ainsi le nombre de requêtes au moteur de recherche. L’information sur les sites Internet fournie par les AliceBots est rapidement surreprésentée dans les bases de données du moteur de recherche, ce qui augmente le classement de ces sites.

Alice Media a par la suite développé toute une suite d’AliceBots qui sont présentement au stade expérimental. Certains s’occupent de la cueillette d’adresses courriels en fonction de mots-clés spécifiques. D’autres peuvent envoyer une série de requêtes à un serveur qui sera déterminé en fonction des réponses qu’ils reçoivent, alors que d’autres peuvent télécharger automatiquement des fichiers en fonctions de mots-clés ou de critères spécifiques. Pour l’instant, ces robots ne peuvent tous fonctionner en même temps car ils consomment une grande quantité de ressources.

Un potentiel illimité

À un moment où le Web s’ajuste de plus en plus pour accommoder les robots d’indexation et autres scripts automatisés, la recherche sur les AliceBots est plus pertinentes que jamais. C’est d’ailleurs pourquoi Google soutien la recherche sur les AliceBots à travers son programme Google Developers for Startups. Pourtant, plusieurs contraintes ralentissent encore ce projet. Malgré la récente mise en marché d’un service cueillette d’adresses courriels, le projet nécessiterait l’achat d’équipement supplémentaire pour être commercialement rentable.