martes, 1 de febrero de 2011

Google – PageRank

PageRankTM (PR) es un número que expresa la importancia que un sitio web tiene según Google. Este sistema de clasificación de páginas web fue desarrollado por los fundadores de Google, Sergey Brin y Lawrence Page en la Universidad de Stanford. El algoritmo de PageRankTM fue patentado en EE.UU. el 08-01-1998 por Larry Page. El título original es Method for node ranking in a linked database, con el nº de patente 6.285.999.

Para establecer el PageRank, Google cuenta los enlaces que una página recibe, de tal forma que cuantos más enlaces entrantes recibe una página, más importancia gana. Pero como era de esperar, esta contabilización de enlaces entrantes es ponderada. Es decir, se da más importancia a los enlaces entrantes desde sitios “importantes” que a los enlaces entrantes desde sitios poco importantes.

Así, un sitio tendrá un PageRank alto si hay muchas páginas exteriores que apunten a dicho sitio, o si hay algunas con alto PageRank que apunten a dicho sitio.

El sistema PageRank es un sistema de “valoración social”. Es decir, es la valoración de un sitio según el “aprecio” que el resto de Internet tiene por él. Parece un sistema bastante objetivo de valoración a ser empleado por un sistema automatizado como Google, teniendo en cuenta la cantidad de sitios en Internet. Un método mejor sería algo así como una comisión de expertos que valorara cada sitio, y eso es imposible de realizar, tanto por tamaño como a la hora de fijar los criterios de valoración.

Por ejemplo, en cuestiones referentes a estándares web, el sitio de W3C es el más importante, o sobre Windows, el sitio de Microsoft. Fácil, pero, ¿cuál sería la clasificación de los demás sitios en sus respectivas categorías?. El problema se vuelve irresoluble prácticamente, a no ser empleando un sistema de valoración social como PageRank.

La definición formal de PageRank por sus autores, que he traducido del inglés, es:

Asumimos que la página A tiene T1…Tn páginas que apuntan a ella (esto es, que la citan). El parámetro d es un factor de amortiguación establecido entre 0 y 1. Normalmente está en 0.85. Se define C(A) como la cantidad de enlaces salientes de la página A. Entonces, el PageRank de una página A es:

PR(A) = (1-d) + d\sum_{k=1}^{n}\frac{PR(Tk)}{C(Tk)}

Propiedad: Los PageRank forman una distribución de probabilidad sobre las páginas web, de tal forma que la suma de los PageRank de todas las páginas de la web es igual a 1.

(Nota: Cero es la probabilidad del suceso imposible, y uno, la del suceso cierto).

PageRank puede ser entendido como un modelo de comportamiento de un internauta. Dado un internauta que empieza a navegar en una página cualquiera aleatoriamente y va saltando de página en página a través de los enlaces ente ellas, sin retroceder nunca, y que de vez en cuando, por aburrimiento, se para y comienza el proceso en otra página aleatoria, la probabilidad de que dicho internauta visite una página es el PageRank de esa página. Y el factor de amortiguación d es la probabilidad de que en cada página el internauta se aburra, se pare y solicite otra página aleatoria para empezar el proceso de nuevo. (Otra variación importante es añadir sólo el factor de amortiguación d a una única página, o a un grupo de páginas, lo cual hace casi imposible manipular el sistema para ascender en la clasificación PageRank).

Por supuesto, como es lógico, la clasificación PageRank se tiene en cuenta por Google al devolver resultados de búsqueda, lo cual no quiere decir que por tener mayor PageRank una página vaya a aparecer delante de otra en los resultados de una determinada búsqueda, pues estos dependen también de si poseen o no otras cualidades que los hagan más importantes como resultado de búsqueda, y que se valoran y ponderan en el correspondiente algoritmo para devolver resultados de búsquedas: PigeonRank™.

Google afirma que nadie puede comprar el adquirir un PageRank más elevado, y es lógico que sea así, pues si no siguieran esa norma, esto es, si concedieran a ciertos sitios una valoración por encima de la merecida, el buscador perdería eficiencia, (bajaría la calidad de los resultados de las búsquedas), y se volvería contra sí mismo.

La importancia de PageRank genera muchos intentos de sabotear el sistema y de ascender fraudulentamente, por ejemplo, usando “granjas de enlaces”, esto es, páginas con muchos enlaces entrantes a un sitio para engañar a Google. Por eso, Google realiza periódicamente modificaciones al algoritmo para corregir los intentos fraudulentos de manipulación, llegando a expulsar de su índice a los infractores.

El valor de PageRank está comprendido entre 0 y 10, y se obtiene calculando el logaritmo (en base desconocida) del número asignado al sitio en cuestión según el criterio explicado antes. Esto significa que ascender en la clasificación PageRank al principio es fácil, pero acercarse a los puestos más altos, esto es, llegar a 8, 9 ó 10, es muy difícil, y sólo lo consiguen los sitios más famosos del mundo, como Google, Yahoo! o Wikipedia.

La operación por la cual Google actualiza los valores de PageRank para cada sitio web indexado tarda en completarse unos pocos días. A este periodo de tiempo de actualización lo llaman Google Dance, porque los datos de PageRank varían de unos servidores a otros de Google, los cuales son consultados por herramientas como las siguientes:

Herramientas.

Hay webs que calculan el PageRank de un sitio:

PRChecker.info
Google PageRank Calculator
Mi PageRank
Thegooglepagerank.com
iWEBTOOL > Web Tools > Google PageRank Prediction
Blogflux > Check Pagerank Instantly

Un programa gratuito para el cálculo del PR es Parameter 1.3 (hay otras utilidades relacionadas en ese sitio).

La barra de búsqueda de Google (para usar en el navegador), informa del PageRank que tiene el sitio visitado. Aparece una barra en la que se muestra en color verde el valor de PageRankTM en una escala de 0 a 10.

PageRank de algunos sitios:

PR 4: ShareMiner
PR 5: ImageVenue
PR 6: Rapidshare
PR 7: Real Academia Española
PR 8: WordPress
PR 9: Blogger
PR 10: Google

El PageRank de un sitio llamado “www.sitio.com” puede ser distinto que si se llama “sitio.com”, por lo que conviene, generalmente, usar la primera forma, salvo cuando claramente el nombre del sitio no incluya las “www” delante.

Comparación de PageRank (importancia social) de algunos sitios relacionados:

Blogger > WordPress
As > Marca
Rapidshare > Megaupload
Wikipedia (inglés) > Wikipedia (español)
Microsoft > Linux
El País > El Mundo

No hay comentarios:

Publicar un comentario