Les webmasters et les fournisseurs de contenu ont commencé à optimiser les sites pour les moteurs de recherche au milieu des années 1990, alors que les premiers moteurs de recherche cataloguaient les débuts du Web.
Au départ, tout ce qu’un webmaster devait faire était de soumettre une page, ou une URL, aux différents moteurs qui enverraient une araignée pour « explorer » cette page, en extraire des liens vers d’autres pages et renvoyer les informations trouvées sur la page à indexer.
Le processus implique qu’une araignée de moteur de recherche télécharge une page et la stocke sur le propre serveur du moteur de recherche, où un deuxième programme, appelé indexeur, extrait diverses informations sur la page, telles que les mots qu’elle contient et où ils se trouvent, comme ainsi que tout poids pour des mots spécifiques, ainsi que tous les liens contenus dans la page, qui sont ensuite placés dans un planificateur pour être explorés à une date ultérieure.
Mais l’utilisation de métadonnées pour indexer les pages s’est avérée moins fiable, car certains webmasters ont abusé des balises méta en incluant des mots-clés non pertinents pour augmenter artificiellement les impressions de page pour leur site Web et augmenter leurs revenus publicitaires.
Le coût pour mille impressions était à l’époque le moyen courant de monétiser les sites Web de contenu. Des métadonnées inexactes, incomplètes et incohérentes dans les balises méta ont entraîné le classement des pages pour les recherches non pertinentes et leur échec pour les recherches pertinentes. Les fournisseurs de contenu Web ont également manipulé un certain nombre d’attributs dans la source HTML d’une page dans le but de bien se classer dans les moteurs de recherche.
En s’appuyant autant sur des facteurs exclusivement sous le contrôle d’un webmaster, les premiers moteurs de recherche ont souffert d’abus et de manipulations de classement. Pour fournir de meilleurs résultats à leurs utilisateurs, les moteurs de recherche ont dû s’adapter pour s’assurer que leurs pages de résultats affichent les résultats de recherche les plus pertinents, plutôt que des pages sans rapport bourrées de nombreux mots-clés par des webmasters peu scrupuleux.
Les moteurs de recherche ont réagi en développant des algorithmes de classement plus complexes, prenant en compte des facteurs supplémentaires plus difficiles à manipuler pour les webmasters.
Alors qu’ils étaient étudiants diplômés de l’Université de Stanford, Larry Page et Sergey Brin ont développé « backrub », un moteur de recherche qui s’appuyait sur un algorithme mathématique pour évaluer la proéminence des pages Web. Le nombre calculé par l’algorithme, PageRank, est fonction de la quantité et de la force des liens entrants. PageRank estime la probabilité qu’une page donnée soit atteinte par un internaute qui navigue au hasard sur le Web et suit les liens d’une page à l’autre.
En effet, cela signifie que certains liens sont plus forts que d’autres, car une page PageRank plus élevée est plus susceptible d’être atteinte par l’internaute aléatoire.