proview.ruАлгоритмы и анализ → Алгоритм расчета PageRank

Алгоритм расчета PageRank

Оригинальный алгоритм расчета PageRank был разработан создателями Google Лоуренсом Пэйджем и Сергеем Брином. Алгоритм выглядит следующим образом:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))


PR(A) - PageRank страницы A,
PR(Ti) - PageRank страницы Ti, которая ссылается на страницу A,
C(Ti) - количество внешних ссылок страницы Ti (линков, ссылающихся на другие сайта),
d - коэффициент дампа, лежащий в промежутке от 0 до 1.

PageRank не классифицирует веб узлы как единое целое, а определяется для каждой страницы отдельно. Чем меньшее число внешних ссылок, рассположенных на страницы Ti, тем больший вес они имеют.

d - коэффициент дампа (смягчающий коэффициент), определяющий вероятность того, что случайных пользователь, посетивший страницу Ti перейдет по внешней ссылке на страницу A (как правило, случайная величина).

Существует также другой алгоритм расчета PageRank:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))


где N - общее число всех страниц Интернета. Данный алгоритм не расходится в корне с предоженным ранее. (1-d) / N - это математическое ожидание, определяющее вероятность перехода пользователя сайта Ti на страницу А.

Алгоритм расчета PageRank
Рассмотрим пример расчета PageRank для страниц A, B и C. При этом страница А ссылается на страницу B, B ссылается на страницу C, а страницы А и C - ссылаются друг на другу (например, при обмене ссылками).

Согласно алгоритму Пейджа и Брина, коэффициент смягчения d обычно устанавливается 0.85, но для более простого расчета установим его как 0.5.



Расчитаем PageRank для страниц:

PR(A)= 0.5 + 0.5 PR(C)
PR(B)= 0.5 + 0.5 (PR(A)/ 2)
PR(C)= 0.5 + 0.5 (PR(A)/ 2 + PR(B))


Решаем полученное уравнение и получаем:

PR(A)= 14/13 = 1.07692308
PR(B)= 10/13 = 0.76923077
PR(C)= 15/13 = 1.15384615


Очевидно, что сумма PageRank страниц равна трем, что полностью совпадает с количеством страниц.

Источник: www.internet-technologies.ru

Популярное