Исследование данных о посещаемости сайтов с помощью методов анализа формальных понятий
Материал из MachineLearning.
Строка 17: | Строка 17: | ||
Пусть <tex>(A, B)</tex> -- некоторое ФП контекста <tex>\mathbb{K} = (G, M, I)</tex>, его поддержка определяется выражением <tex>supp(A,B) = \frac{|A|}{|G|}</tex>, и дано минимальное значение поддержки <tex>minsupp \in [0,1]</tex>, тогда ''"решеткой-айсбергом"'' назовем множество <tex>\{(A,B)|supp(B)\geq minsupp\}</tex>. | Пусть <tex>(A, B)</tex> -- некоторое ФП контекста <tex>\mathbb{K} = (G, M, I)</tex>, его поддержка определяется выражением <tex>supp(A,B) = \frac{|A|}{|G|}</tex>, и дано минимальное значение поддержки <tex>minsupp \in [0,1]</tex>, тогда ''"решеткой-айсбергом"'' назовем множество <tex>\{(A,B)|supp(B)\geq minsupp\}</tex>. | ||
- | Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту <tex>\mathbb{K}=(G,M,I)</tex> соответствует неориентированный двудольный граф <tex>\Gamma=(G\cup M,E)</tex>, где для <tex>g \in G</tex> и <tex>m \in M</tex> выполнено <tex>\{g,m\} \in E \Leftrightarrow gIm</tex>. Формальному понятию <tex>(A,B)</tex> контекста <tex>\K</tex> будет соответствовать биклика <tex>K_{A,B}</tex> двудольного графа <tex>\Gamma</tex>. В этом случае разрезом для формального понятия <tex>(A,B)</tex> будет число ребер графа <tex>\Gamma</tex>, имеющих одну вершину в <tex>A</tex> или <tex>B</tex>, а другую в <tex>M\setminus B</tex> или <tex>G\setminus A</tex> соответственно. | + | Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту <tex>\mathbb{K}=(G,M,I)</tex> соответствует неориентированный двудольный граф <tex>\Gamma=(G\cup M,E)</tex>, где для <tex>g \in G</tex> и <tex>m \in M</tex> выполнено <tex>\{g,m\} \in E \Leftrightarrow gIm</tex>. Формальному понятию <tex>(A,B)</tex> контекста <tex>\mathbb{K}</tex> будет соответствовать биклика <tex>K_{A,B}</tex> двудольного графа <tex>\Gamma</tex>. В этом случае разрезом для формального понятия <tex>(A,B)</tex> будет число ребер графа <tex>\Gamma</tex>, имеющих одну вершину в <tex>A</tex> или <tex>B</tex>, а другую в <tex>M\setminus B</tex> или <tex>G\setminus A</tex> соответственно. |
Для формального контекста <tex>\mathbb{K} = (G, M, I)</tex> разрез ФП <tex>(A,B)</tex> определяется выражением | Для формального контекста <tex>\mathbb{K} = (G, M, I)</tex> разрез ФП <tex>(A,B)</tex> определяется выражением |
Версия 11:05, 6 ноября 2010
С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т.д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т.п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.
Необходимо построить "внешнюю" и "внутреннюю" таксономии некоторого целевого сайтов. Под "внешней таксономией" будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту , где -- множество всех посетителей целевого сайта, -- множество всех сайтов выборки исключая целевой, -- отношение инцидентности, имеющее место для , , тогда и только тогда, когда посетитель "ходил" на сайт . Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом , где -- множество всех посетителей целевого сайта, -- множество всех собственных страниц целевого сайта, --- отношение инцидентности , имеющее место для ,, тогда и только тогда, когда посетитель "ходил" на сайт . Понятию такого контекста соответствует пара , такая что множество сайтов , которые посещали все посетители , а множество посетителей , которые посещали все сайты .
Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С.О.~Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).
Пусть --- формальный контекст, -- некоторое формальное понятие , тогда \emph{индекс устойчивости} понятия определяется выражением
Очевидно, что .
Даже если описание данных зашумлено, то понятия с индексом устойчивости близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из них более не активны.
Пусть -- некоторое ФП контекста , его поддержка определяется выражением , и дано минимальное значение поддержки , тогда "решеткой-айсбергом" назовем множество .
Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту соответствует неориентированный двудольный граф , где для и выполнено . Формальному понятию контекста будет соответствовать биклика двудольного графа . В этом случае разрезом для формального понятия будет число ребер графа , имеющих одну вершину в или , а другую в или соответственно.
Для формального контекста разрез ФП определяется выражением
Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах "пользователи-сайты", то чем меньше значение для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, т.к. меньшее количество людей с другими интересами их посещает.