Le PageRank se fonde sur les découvertes des mathématiques statistiques d’Andrei Andreevic Markov qui analysa au début du XXème siècle, les phénomènes statistiques dans les systèmes fermés, c’est-à-dire les systèmes dans lesquels chaque élément est nécessairement ou la cause ou l’effet d’autres éléments du même système.
Sergey Brin et Larry Page, fondateurs de Google, ont ensuite repris cette base théorique pour l’améliorer et en faire le PageRank (que l’université de Stanford a ensuite déposé comme brevet). Page le teste en mars 1996 au moment du lancement de son spider, un programme pour explorer le Net : la révolution Google est en marche.
C’est en effet cet algorithme qui permet à Google d’assigner une valeur aux pages indexées du spider et qui a fait son immense succès. Le PageRank d’une page Internet est visible grâce à la Google Toolbar ou grâce à des sites comme www.pagerank.fr
Il est attribué sous la forme d’une note allant de 1 à 10. Il se calcule de la façon suivante
PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))
Concrètement il repose sur deux principes :
Tout d’abord, il repose sur la popularité d’une page Web, calculée à partir du nombre de liens qui pointent vers ce site. C’est donc un procédé quantitatif qui s’appuie sur la « démocratie » du Web, c’est-à-dire que la légitimité et l’importance des pages proviennent directement de ces liens, que Google considère en quelque sorte comme des votes en faveur des sites. Le résultat serait donc « un index de notation populaire ». La base philosophique reprise est celle qui anime les milieux scientifiques : plus un article est accueilli positivement plus il est jugé digne d’intérêt et fiable.
« PageRank relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page’s value. In essence, Google interprets a link from page A to page B as a vote, by page A, for page B » Google
Néanmoins face à la multiplication du nombre de sites et l’explosion de la blogosphère, il est apparu nécessaire d’inclure une deuxième variable, cette fois qualitative.
« But, Google looks at considerably more than the sheer volume of votes, or links a page receives; for example, it also analyzes the page that casts the vote. Votes cast by pages that are themselves ‘important’ weigh more heavily and help to make other pages ‘important.’ Using these and other factors, Google provides its views on pages’ relative importance. » Google
Les sites disposent ainsi de plus ou moins d’influence aux yeux de Google en fonction de leurs contenus et de leurs portées : ainsi un lien trouvé sur un site pornographique sera considéré comme moins important qu’un lien provenant d’un grand quotidien national. Deux sites peuvent ainsi avoir le même nombre de liens pointant vers eux mais leur PageRank sera différent en fonction de ce critère qualitatif. Le TrustRank est également pris en compte : c’est un critère d’autorité attribué aux pages, en fonction des qualités de sérieux et de reconnaissance des auteurs ou des sites, pour éviter le spam et les fausses informations. Viennent s’ajouter à ces critères le trafic associé à la page, le nom de domaine et l’hébergement. Nous verrons par la suite comment augmenter son PageRank en s’appuyant sur ces critères.

N’étant qu’un algorithme, aussi développé et puissant qu’il soit, le PageRank connaît en effet des failles : certains programmes exploitent l’aspect invasif de la logique de connexions multiples et d’évaluation des noeuds pour faire augmenter virtuellement le PageRank d’un site comme nous l’explique le groupe de recherche Ippolita :
« Quelques programmes s’occupent de chercher les sites avec des statistiques d’accès publiques ; un nombre très élevé de demandes est donc effectué en simulant des visites. Ce mécanisme de bombardement fait littéralement exploser le nombre d’accès aux sites en question, de sorte que les statistiques affichent des accroissements notables, ce qui augmentera sensiblement le Google-ranking du site, et en dernière analyse celui du site dont vient le lien. »
Nous allons voir comment il est possible d’augmenter son PageRank. Les méthodes les plus efficaces visent à la gestion des liens, externes et internes, mais également à la gestion des noms de domaines.
Les liens externes constituent la principale source du PageRank, il faut donc valoriser au maximum le nombre de liens vers votre page, tout en les sélectionnant avec prudence : il faut choisir des pages ayant elles-mêmes un bon PageRank (qui peut varier d’une page à l’autre d’un même site !), possédant le moins de liens sortants possible (ce qui valorise votre lien) sauf dans le cas des annuaires comme Yahoo! qui a une grande importance aux yeux de Google. Les liens internes jouent également un rôle important mais à double tranchant : vous pouvez multiplier les liens vers par exemple votre page d’accueil pour faire monter son PageRank mais cela se fera au détriment de vos autres pages qui auront un PageRank moindre. De la même façon si vous faites un grand nombre de liens, la « valeur » transmise à vos autres pages diminuera.

Un autre paramètre important est celui des noms de domaines et des noms de fichiers : en effet, un spider ne reconnaît pas différentes urls qui désignent une même page. Le PageRank des pages va ainsi être divisé entre les différentes urls que le spider considère comme uniques, ne pouvant les associer à cause des noms différents. Il est donc nécessaire de standardiser les urls pour éviter ces pertes.
En conclusion, il est néanmoins important d’indiquer qu’un site disposant d’un PageRank très élevé ne sera pas nécessairement le premier résultat d’une recherche pour des termes particuliers sinon on retrouverait toujours les mêmes sites en tête. Bien souvent, le texte ou le nom du lien aura beaucoup plus d’importance qu’un haut PageRank…
Article également disponible sur Intellimique


