Исследование данных о посещаемости сайтов с помощью методов анализа формальных понятий

Материал из MachineLearning.

(Различия между версиями)

Версия 22:17, 4 ноября 2010

С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т.д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т.п. Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.

Необходимо построить "внешнюю" и "внутреннюю" таксономии некоторого целевого сайтов. Под "внешней таксономией" будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту $\mathbb{K}_{ex}=(V,S_{ex},I)$ , где $V$ -- множество всех посетителей целевого сайта, $S_{ex}$ -- множество всех сайтов выборки исключая целевой, $I$ -- отношение инцидентности $vIs$, имеющее место для <tex>v \in V$ , $s \in S_{ex}$ , тогда и только тогда, когда посетитель $v$ "ходил" на сайт $s$ . Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом $\mathbb{K}_{in}=(V,S_{in},I$ , где $V$ -- множество всех посетителей целевого сайта, $S_{in}$ -- множество всех собственных страниц целевого сайта, $I$ --- отношение инцидентности $vIs$, имеющее место для <tex>v \in V$,<tex>s \in S_{in}$ , тогда и только тогда, когда посетитель $v$ "ходил" на сайт $s$ . Понятию такого контекста соответствует пара $(A, B)$, такая что<tex>A'=\{$ множество сайтов $s \in S$ , которые посещали все посетители $v \in A\} =B$ , а $B'=\{$множество посетителей <tex>v \in V$ , которые посещали все сайты $s \in B\} =A$ .

Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С.О.~Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).

Пусть $\mathbb{K} = (G, M, I)$ --- формальный контекст, $(A,B)$ -- некоторое формальное понятие $K$ , тогда \emph{индекс устойчивости} $\sigma$ понятия $(A, B)$ определяется выражением

$\sigma(A,B) = \frac{|\{C\subseteq A | B'=A \}|}{2^{|A|}}.$

Очевидно, что $0 \leq \sigma (A, B) \leq 1$ .

Даже если описание данных зашумлено, то понятия с индексом устойчивости близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из них более не активны.

Пусть $(A, B)$ -- некоторое ФП контекста $\mathbb{K} = (G, M, I)$ , его поддержка определяется выражением $supp(A,B) = \frac{|A|}{|G|}$ , и дано минимальное значение поддержки $minsupp \in [0,1]$ , тогда "решеткой-айсбергом" назовем множество $\{(A,B)|supp(B)\geq minsupp\}$ .

Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту $\mathbb{K}=(G,M,I)$ соответствует неориентированный двудольный граф $\Gamma=(G\cup M,E)$ , где для $g \in G$ и $m \in M$ выполнено $\{g,m\} \in E \Leftrightarrow gIm$ . Формальному понятию $(A,B)$ контекста $\K$ будет соответствовать биклика $K_{A,B}$ двудольного графа $\Gamma$. В этом случае разрезом для формального понятия <tex>(A,B)$ будет число ребер графа $\Gamma$ , имеющих одну вершину в $A$ или $B$ , а другую в $M\setminus B$ или $G\setminus A$ соответственно.

Для формального контекста $\mathbb{K} = (G, M, I)$ разрез ФП $(A,B)$ определяется выражением

$cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .$

Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах "пользователи-сайты", то чем меньше значение $cut$ для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, т.к. меньшее количество людей с другими интересами их посещает.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%BE_%D0%BF%D0%BE%D1%81%D0%B5%D1%89%D0%B0%D0%B5%D0%BC%D0%BE%D1%81%D1%82%D0%B8_%D1%81%D0%B0%D0%B9%D1%82%D0%BE%D0%B2_%D1%81_%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%BE%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D0%BF%D0%BE%D0%BD%D1%8F%D1%82%D0%B8%D0%B9»

@@ Строка 1: / Строка 1: @@
 С момента создания сайта для его владельцев и возможно потенциальных рекламодателей встает вопрос учета количества посещений с целью определения популярности ресурса и  выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность такого посещения. Как показывает развитие отрасли для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории, например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица недавно сделавшие ремонт или новоселы, владельцы заведений общепита и т.д.). Знание своей аудитории дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т.п.  Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже опишем постановку задачи и модель для построения двух видов таксономий аудиторий.
-Необходимо построить ``внешнюю'' и ``внутреннюю'' таксономии некоторого целевого сайтов. Под \emph{``внешней'' таксономией} будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту $\K_{ex}=(V,S_{ex},I)$, где $V$ -- множество всех посетителей целевого сайта,  $S_{ex}$ -- множество всех сайтов выборки исключая целевой, $I$ -- отношение инцидентности $vIs$,  имеющее место для $v \in V$, $s \in S_{ex}$, тогда и только тогда, когда посетитель $v$ ``ходил'' на сайт $s$.
+Необходимо построить "внешнюю" и "внутреннюю" таксономии некоторого целевого сайтов. Под ''"внешней таксономией"'' будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по такому контексту <tex>\mathbb{K}_{ex}=(V,S_{ex},I)</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{ex}</tex> -- множество всех сайтов выборки исключая целевой, <tex>I</tex> -- отношение инцидентности<tex>vIs$,  имеющее место для <tex>v \in V</tex>, <tex>s \in S_{ex}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
-Под \emph{``внутренней'' таксономией} будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным  посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом $\K_{in}=(V,S_{in},I)$, где $V$ -- множество всех посетителей целевого сайта,  $S_{in}$ -- множество всех собственных страниц целевого сайта, $I$ --- отношение инцидентности $vIs$,  имеющее место для $v \in V$, $s \in S_{in}$, тогда и только тогда, когда посетитель $v$ ``ходил'' на сайт $s$.
+Под ''"внутренней" таксономией'' будем понимать иерархическую структуру аудитории целевого сайта, построенную по данным  посещений его собственных страниц (возможно, сгруппированных по разделам). Соответствующий контекст определяется сходным образом <tex>\mathbb{K}_{in}=(V,S_{in},I</tex>, где <tex>V</tex> -- множество всех посетителей целевого сайта, <tex>S_{in}</tex> -- множество всех собственных страниц целевого сайта, <tex>I</tex> --- отношение инцидентности <tex>vIs$,  имеющее место для <tex>v \in V$,<tex>s \in S_{in}</tex>, тогда и только тогда, когда посетитель <tex>v</tex> "ходил" на сайт <tex>s</tex>.
-Понятию такого контекста соответствует пара $(A, B)$, такая что $A'=\{$ множество сайтов $s \in S$, которые посещали все посетители $v \in A\} =B$, а $B'=\{$множество посетителей $v \in V$, которые посещали все сайты $s \in B\} =A$.
+Понятию такого контекста соответствует пара <tex>(A, B)$, такая что<tex>A'=\{</tex> множество сайтов <tex>s \in S</tex>, которые посещали все посетители <tex>v \in A\} =B</tex>, а <tex>B'=\{$множество посетителей <tex>v \in V</tex>, которые посещали все сайты <tex>s \in B\} =A</tex>.
 Остановимся подробнее на понятии индекса устойчивости формального понятия, предложенного в работах С.О.~Кузнецова, который используется для отбора интересных групп посетителей при построении таксономий. Индекс устойчивости ФП служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов).
-Пусть $\K = (G, M, I)$ --- формальный контекст, $(A,B)$ -- некоторое формальное понятие $K$, тогда \emph{индекс устойчивости} $\sigma$ понятия $(A, B)$ определяется выражением
+Пусть <tex>\mathbb{K} = (G, M, I)</tex> --- формальный контекст,<tex>(A,B)</tex> -- некоторое формальное понятие <tex>K</tex>, тогда \emph{индекс устойчивости} <tex>\sigma</tex> понятия <tex>(A, B)</tex> определяется выражением
-$$\sigma(A,B) = \frac{|\{C\subseteq A | B'=A \}|}{2^{|A|}}.$$
+::<tex>\sigma(A,B) = \frac{|\{C\subseteq A | B'=A \}|}{2^{|A|}}.</tex>
-Очевидно, что $0 \leq \sigma (A, B) \leq 1$.
+Очевидно, что <tex>0 \leq \sigma (A, B) \leq 1</tex>.
 Даже если описание данных зашумлено, то понятия с индексом устойчивости близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из них более не активны.
-Пусть $(A, B)$ -- некоторое ФП контекста $\K = (G, M, I)$, его поддержка определяется выражением $supp(A,B) = \frac{|A|}{|G|}$, и дано минимальное значение поддержки $minsupp \in [0,1]$, тогда \emph{решеткой-айсбергом} назовем множество $\{(A,B)|supp(B)\geq minsupp\}$.
+Пусть <tex>(A, B)</tex> -- некоторое ФП контекста <tex>\mathbb{K} = (G, M, I)</tex>, его поддержка определяется выражением <tex>supp(A,B) = \frac{|A|}{|G|}</tex>, и дано минимальное значение поддержки <tex>minsupp \in [0,1]</tex>, тогда ''"решеткой-айсбергом"'' назовем множество <tex>\{(A,B)|supp(B)\geq minsupp\}</tex>.
-Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту $\K=(G,M,I)$ соответствует неориентированный двудольный граф $\Gamma=(G\cup M,E)$, где для $g \in G$ и $m \in M$ выполнено $\{g,m\} \in E \Leftrightarrow gIm$. Формальному понятию $(A,B)$ контекста $\K$ будет соответствовать биклика $K_{A,B}$ двудольного графа $\Gamma$.  В этом случае разрезом для формального понятия $(A,B)$  будет число ребер графа $\Gamma$, имеющих одну вершину в $A$ или $B$, а другую в $M\setminus B$ или $G\setminus A$ соответственно.
+Использование решеток-айсбергов позволяет выявлять крупные понятия, соответствующие аудиториям наиболее посещаемых сайтов. К сожалению, размер аудитории не гарантирует того, что данная аудитория возникла не в результате влияния шума. Поэтому исследовались и некоторые другие критерии отбора релевантных ФП, например, минимальные разрезы из теории графов. Применение таких критериев возможно потому, что формальному контексту <tex>\mathbb{K}=(G,M,I)</tex> соответствует неориентированный двудольный граф <tex>\Gamma=(G\cup M,E)</tex>, где для <tex>g \in G</tex> и <tex>m \in M</tex> выполнено <tex>\{g,m\} \in E \Leftrightarrow gIm</tex>. Формальному понятию <tex>(A,B)</tex> контекста <tex>\K</tex> будет соответствовать биклика <tex>K_{A,B}</tex> двудольного графа <tex>\Gamma$.  В этом случае разрезом для формального понятия <tex>(A,B)</tex>  будет число ребер графа <tex>\Gamma</tex>, имеющих одну вершину в <tex>A</tex> или <tex>B</tex>, а другую в <tex>M\setminus B</tex> или <tex>G\setminus A</tex> соответственно.
-Для формального контекста $\K = (G, M, I)$ разрез ФП $(A,B)$ определяется выражением
+Для формального контекста <tex>\mathbb{K} = (G, M, I)</tex> разрез ФП <tex>(A,B)</tex> определяется выражением
-$$cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .$$
+:<tex>cut(A,B) =|(\bigcup\limits_{g \in A} g')\setminus B|+|(\bigcup\limits_{m \in B} m')\setminus A| .</tex>
-Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах ``пользователи-сайты'', то чем меньше значение $cut$ для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, т.к. меньшее количество людей с другими интересами их посещает.
+Такой индекс показывает степень связи объектов и признаков ФП с другими признаками и объектами контекста. Если говорить в терминах "пользователи-сайты", то чем меньше значение <tex>cut</tex> для некоторого понятия, тем легче отделить аудиторию (объем понятия) от пользователей других сайтов, не входящих в содержание этого понятия. Аналогично, легче выделить тематику сайтов, предпочитаемую этой аудиторией, как вполне самостоятельную, т.к. меньшее количество людей с другими интересами их посещает.

Исследование данных о посещаемости сайтов с помощью методов анализа формальных понятий

Материал из MachineLearning.

Версия 22:17, 4 ноября 2010

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты