Zipf Curves and Website Popularity (April 15, 1997)
автор: Якоб Нильсен
перевод: Александр Качанов
доп.заметка к статье Do Websites Have Increasing Returns?
Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению Зипфа. Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.
Одни и те же данные, изображенные на линейной и логарифмической шкале. Оба графика изображают распределение Зипфа на примере 300 точек. |
Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково:
Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например:
Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.
Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт. Другие исследования показывают, что кривой Зипфа можно представить и исходящие запросы работников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа:
Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко.
Якоб Нильсен
« назад к списку статей
Рекомендую |
Якоб Нильсен Веб-дизайн. Книга Якоба Нильсена на www.ozon.ru на www.books.ru на www.bolero.ru |
Рекомендую |
Якоб Нильсен Дизайн Web-страниц. Анализ удобства и простоты использования 50 узлов на www.ozon.ru на www.books.ru |