Исследование данных о посещаемости сайтов с помощью методов анализа формальных понятий
Материал из MachineLearning.
В статье описывается подход к исследованию свойств множества посетителей сайтов сети Интернет с помощью методов анализа формальных понятий.
С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т. д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т. п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.
Необходимо построить «внешнюю» и «внутреннюю» таксономии некоторого целевого сайтов. Под «внешней таксономией» будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту , где 
 -- множество всех посетителей целевого сайта, 
 -- множество всех сайтов выборки исключая целевой, 
 -- отношение инцидентности
,  имеющее место для 
, 
, тогда и только тогда, когда посетитель 
 "ходил" на сайт 
.
Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным  посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом 
, где 
 -- множество всех посетителей целевого сайта, 
 -- множество всех собственных страниц целевого сайта, 
 --- отношение инцидентности 
,  имеющее место для 
,
, тогда и только тогда, когда посетитель 
 "ходил" на сайт 
.
Понятию такого контекста соответствует пара 
, такая что
 множество сайтов 
, которые посещали все посетители 
, а 
 множество посетителей 
, которые посещали все сайты 
.
Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С. О. Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).
Пусть  --- формальный контекст,
 -- некоторое формальное понятие 
, тогда \emph{индекс устойчивости} 
 понятия 
 определяется выражением
Очевидно, что .
Даже если описание данных зашумлено, то понятия с индексом устойчивости близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из них более не активны.
Пусть  -- некоторое ФП контекста 
, его поддержка определяется выражением 
, и дано минимальное значение поддержки 
, тогда "решеткой-айсбергом" назовем множество 
.
Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту  соответствует неориентированный двудольный граф 
, где для 
 и 
 выполнено 
. Формальному понятию 
 контекста 
 будет соответствовать биклика 
 двудольного графа 
.  В этом случае разрезом для формального понятия 
  будет число ребер графа 
, имеющих одну вершину в 
 или 
, а другую в 
 или 
 соответственно.
Для формального контекста  разрез ФП 
 определяется выражением
Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах «пользователи-сайты», то чем меньше значение  для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, так как меньшее количество людей с другими интересами их посещает.
Публикации
- Sergei O. Kuznetsov, Dmitrii I. Ignatov, Concept Stability for Constructing Taxonomies of Web-site Users// Proc. Satellite Workshop "Social Network Analysis and Conceptual Structures: Exploring Opportunities" at the 5th International Conference Formal Concept Analysis (ICFCA'07), Clermont-Ferrand, France, P. 19-24 ([1])
 

