Кривые Зипфа и популярность веб-сайтов

Zipf Curves and Website Popularity (April 15, 1997)
автор: Якоб Нильсен
перевод: Александр Качанов

доп.заметка к статье Do Websites Have Increasing Returns?

Лицо Нильсена и ссылка на информацию о нем Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению Зипфа. Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.

Линейная шкала
по обеим осям

Логарифмическая шкала
по обеим осям

Одни и те же данные, изображенные на линейной и логарифмической шкале.
Оба графика изображают распределение Зипфа на примере 300 точек.

Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково:

  • Небольшое количество элементов имеет очень высокий рейтинг (левый "рог" диаграммы)
  • Среднее количество элементов имеет средний рейтинг (средняя часть диаграммы)
  • Огромное количество элементов имеет очень низкий рейтинг (правый "рог" диаграммы)

Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например:

  • В языке есть небольшое количество слов ("the", "and" и т.д.), которые используются чрезвычайно часто, а в библиотеке есть небольшое количество книг, которые пользуются очень высоким спросом (например, бестселлеры)
  • В языке есть достаточно большое количество слов ("dog", "house" и т.д.), которые используются достаточно часто, а в библиотеке есть добрая доля книг, которые берет очень много людей (детективы и прочее)
  • В языке полно слов ("Зипф", логарифмическая шкала" и т.д.), которые практически никогда не используются, а в библиотеках есть груды книг, которые берутся лишь раз в несколько лет (например, руководство по эксплуатации текстового процессора для Apple II)

Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.

Сравнение фактических данных веб-сайта Sun с теоретическими данными распределения Зифпа. Обратите внимание, график использует логарифмическую шкалу по обеим осям.

Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт. Другие исследования показывают, что кривой Зипфа можно представить и исходящие запросы работников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа:

  • есть небольшое количество сайтов, на которые ссылаются все, и огромное количество сайтов, на которые практически никто не ссылается;
  • а также каждый сайт получает большую часть посетителей от небольшого количества сайтов, сделавших на него ссылку, а от огромного числа других сайтов приходит лишь небольшая часть посетителей

Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко.

Якоб Нильсен

« назад к списку статей



Самые популярные статьи Нильсена:



Рекомендую
Якоб Нильсен

Веб-дизайн.
Книга Якоба Нильсена

на www.ozon.ru
на www.books.ru
на www.bolero.ru


Рекомендую
Якоб Нильсен

Дизайн Web-страниц.
Анализ удобства
и простоты использования
50 узлов

на www.ozon.ru
на www.books.ru



что такое система Орфус?

Все материалы данного сайта раздаются под лицензией Creative Commons License  2.0
подробнее
Webmascon Daily - RSS-формат
Rambler's Top100
Rating All.BY
Akavita
Valid XHTML 1.0!