Depuis ce matin, ça danse sur les Data Centers de Google. La première mise à jour du Page Rank de l’année 2008 semble bien être en cours.
Et je gage que mêmes ceux qui clament haut et fort que "le PR, ça ne sert à rien" sont comme les autres en train de surveiller l’évolution de la petite barre verte sur leurs sites.
« Finalement, j’ai rencontré une brouette, et j’ai pensé qu’elle me prêterait une oreille attentive. » Lewis Carroll
S’il est un concept qui fait et fera encore couler beaucoup d’encre, c’est bien celui du Google pagerank, sur lequel j’ai lu à peu près tout et n’importe quoi.
|
Contrairement à une idée très répandue, l’algorithme du PageRank n’est absolument pas secret : développé par Larry Page (un des fondateurs de Google) lorsqu’il était à l’université de Stanford, le brevet du PageRank a été déposé par l’Université de Stanford et a fait l’objet de plusieurs thèses universitaires. Il n’est en aucun cas la propriété de Google, qui ne peut donc pas le garder secret. |
Ce qui est secret, c’est la manière dont Google l’utilise : importance relative du PageRank dans le classement des résultats de recherche, critères de prise en compte ou de rejet des liens entrants.
Description de l’algorithme :
Le PageRank est une mesure de la popularité d’une page web. Il peut être considéré comme le resultat d’un vote : chaque lien d’une page vers une autre page est considéré comme un vote en faveur de cette dernière.
Ce que mesure vraiment le PageRank, c’est une probabilité, plus exactement, la probabilité qu’un visiteur, prenant une page N au hasard dans l’index de Google et cliquant sur les liens sortants, arrive au final sur la page A.
Comme vous vous en souvenez sans doute, une probabilité est un chiffre entre 0 et 1 (pas entre 0 et 10, mais patience, je reviendai la-dessus un peu plus tard).
Une probabilité de 0,5 signifie qu’un visiteur a une chance sur deux de tomber sur la page A en partant de n’importe quelle page N au hasard (c’est énorme !).
Imaginons un Web “idéal” où n’existerait que 4 pages : A, B, C et D et sans aucun lien entre elles.
La probabilité de tomber sur une de ces pages au hasard serait de 0,25 (c’est à dire une chance sur quatre).
Si maintenant, chaque page B, C, D fait un lien vers A, on peut calculer le PageRank de A de la manière suivante :
PR(A) = PR(B) + PR(C) + PR(D) = 0,75 auquel dans notre cas il faudrait ajouter le PR initial de 0,25 de la page pour arriver à une probabilité de 1 : quelque soit la page prise au hasard, on arrive sur A à tous les coups.
Dans la realité, si on considère qu’il y a quelque 15 000 000 000 de pages dans l’index de Google, le PR initial est négligeable (1/15 000000000, ou en virgule flottante : 6,66666E-11) et sera donc ignoré dans la suite des exemples.
Reprennons notre Web “idéal” à 4 pages, et imaginons maintenant qu’il y a 1 seul lien sortant de B vers A, mais qu’il y a 2 liens sortant de C vers A et D, et 3 liens sortant de D (vers A, B et C).
Le calcul se complique un petit peu :
PR(A)= PR(B)/1 + PR(C)/2 + PR(D)/3 = 0,25 + 0,125 + 0,083 = 0,458
Appellons L(x) le nombre de liens sortant de la page x.
La formule du PageRank s’écrit donc maintenant :
PR(A) = PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D)
Vous suivez toujours ? Tant mieux, ça va se compliquer légèrement.
On se doute bien qu’un internaute partant d’une page au hasard et cliquant sur les liens sortant de chaque page ne va pas cliquer éternellement, puisqu’il n’a pas l’éternité devant lui. Sur un temps infini, avec un nombre infini de clics, toute page possédant au moins un lien entrant finirait par être atteinte, et le PageRank de chaque page serait de 1, donc le PageRank n’aurait plus aucune signification.
La formule du PageRank s’est donc vu attribuer un coefficient d’atténuation (d pour damping factor) fixé généralement à d = 0,85.
La formule du PageRank devient donc :
PR(A) = 1 - d + d(PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D) + …..+ PR(N)/L(N))
Il existe une variante de cette formule faisant intervenir N (le nombre d’éléments de la collection ou si vous préférez, le nombre de pages dans l’index) et qui s’écrit de la manière suivante :
PR(A) = (1 - d)/N + d(PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D) + …..+ PR(N)/L(N))
Bon, et maintenant, vous n’êtes pas plus avancés : comment passe-t-on de ce PR qui est un chiffre sous la forme 0,00000001234 à cette fameuse petite barre verte graduée de 0 à 10 et qui fait encore baver beaucoup de webmasters ?
Et bien, il n’y a pas de possibilité de lecture directe. Il est impossible d’établir une correspondance du genre “un PageRank de 0,0000345 correspond à un PR 4 et un PageRank de 0,00543 correspond à un PR10″.
Ce que traduit ce dernier PR est en réalité un classement de l’ensemble des pages de l’index sur une échelle logarithmique.
Une fois calculé le PageRank de l’ensemble des pages de l’index, les pages de PageRank non nul sont triées par ordre croissant.
On prend 90% des pages et on leur attribue un PR1.
Sur les 10% restant, on recommence la même opération, c’est à dire que 90% se voient attribuer un PR2.
Même chose avec les 10% restant de l’opération précédente : 90% se voient attribuer un PR3 et on continue comme ça jusqu’à plus soif…enfin jusqu’à PR10.
Qu’est-ce que cela nous apprend ?
Tout d’abord, on voit que le PageRank ne prend en compte que 2 facteurs quant aux pages d’où proviennent les liens : le PageRank de la page source, et le nombre de liens sortant de la page source.
La qualité de la page recevant ces liens (cible) ou le nombre des liens sortant de la page cible n’entrent jamais en ligne de compte dans le calcul.
Pour celui qui tient absolument à obtenir un PR élevé, il est donc important d’obtenir des liens depuis des pages de PR élevé et ne possédant que peu de liens sortants.
Ce qui apparait ensuite, c’est que le PR (celui de 0 à 10) est le résultat d’un classement de l’ensemble des sites : un PR n’est donc jamais acquis. A nombre de liens constants, plus le nombre de pages de l’index Google augmente, plus on risque de descendre dans le classement. Pour maintenir un PR, le nombre de liens doit donc augmenter en permanence.
Mais tout ce qui est écrit ci-dessus considère que chaque lien est pris en compte dans le calcul. Ce qui reste un secret bien gardé de la part de Google, ce sont justement les facteurs qui permettent de comptabiliser un lien ou de l’ignorer : je reviendrai sans doute là-dessus dans un prochain article, mais là, ça risque de devenir de la pure spéculation.
Conclusion
Le PageRank n’est qu’un facteur parmi beaucoup d’autres (plus de 200 selon certains sources) permettant de calculer le rang d’une page dans les résultats de recherche de Google, et il est bien plus rentable de focaliser son attention sur la qualité du contenu de vos pages et sur la pertinence des liens qui pointent vers vous.
Si vous ne cherchez qu’à augmenter votre PageRank par tous les moyens, pensant que cela va améliorer votre positionnement, vous allez au-devant de graves désillusions : comme disait Prévert, « le meilleur moyen de ne pas avancer, c’est de suivre une idée fixe ».