Формирование бикластеров и рекомендаций для рекомендательной системы Интернет-рекламы

Материал из MachineLearning.

(Различия между версиями)

Версия 22:21, 4 ноября 2010

Одна из разновидностей электронной коммерции --- контекстная Интернет-реклама. Сейчас на рынке таких услуг крупными игроками являются поисковые системы, немалую часть прибыли которых составляет так называемая поисковая реклама. Для России репрезентативными примерами служат рекламные Интернет-сервисы ``Яндекс.Директ и ``Бегун. Пользователю предлагается релевантная (с точки зрения поисковой системы) его поисковому запросу реклама. В отличие от задачи предоставления пользователю наиболее интересной ему поисковой рекламы, наша задача --- выявление рекламных слов, которые могут быть интересны рекламодателю. Предположим, что некая фирма $F<tex> приобрела ряд рекламных слов, которые описывают предоставляемые услуги. Как правило, на рынке уже существуют компании-конкуренты, поэтому вполне разумно было бы выяснить, какие рекламные слова приобрели они. Далее можно сравнить эти множества слов с теми, что купила <tex>F<tex> и, исходя из частоты таких покупок, отобрать наиболее для нее интересные из неприобретенных. Такой механизм стимулирует продажи рекламы и позволяет устраивать своеобразный аукцион по определению цены того или иного рекламного словосочетания. Решение подобной задачи методами спектральной кластеризации описано в работах Жукова~Л.Е. Цель наших экспериментов не только расширить список методов бикластеризации пригодных для решения этой задачи, но и улучшить качество предложенных рекомендаций. Ниже приведено описание математической модели задачи. Исходный массив данных описывается формальным контекстом <tex>\K_{FT}=(F,T,I_{FT})<tex>, <tex>F<tex> (от firms) --- множество компаний-рекламодателей, а <tex>T<tex> (от term) --- множество рекламных словосочетаний, <tex>I<tex> --- отношение инцидентности, показывающее, что фирма <tex>f \in F<tex> купила словосочетание <tex>t \in T<tex> тогда и только тогда, когда <tex>fIt<tex>. Для решения задачи последовательно применялись следующие подходы: \begin{enumerate} \item отбор по размеру объема и содержания понятий и объектно-признаковую бикластеризацию для выявления крупных рынков средствами АФП; \item поиск ассоциативных правил для построения рекомендаций; \item построение ассоциативных метаправил с помощью морфологического анализа; \item построение ассоциативных метаправил с помощью онтологий (тематического каталога). \end{enumerate} Краткое описание модели формирования рекомендаций на основе ассоциативных метаправил с помощью морфологического анализа приведено ниже. Рассмотрим в качестве дополнительного знания имеющееся признаковое пространство, а именно тот факт, что каждый признак является словом или словосочетанием. Вполне очевидно, что синонимичные словосочетания принадлежат к одному сегменту рынка. Конечно, в штате компаний, занимающихся контекстной рекламой, существуют тематические каталоги, составленные экспертами, но ввиду большого количества рекламных слов (несколько тысяч) наполнение каталога ``вручную'' является сложной задачей. Для построения тематического каталога рекламных словосочетаний могут потребоваться словари синонимов, а учитывая тот факт, что такие словосочетания не всегда слова или сочетания двух слов, такие словари редки. Поэтому в качестве первого приближения для решения такой задачи можно использовать стемминг, или выделение основы слова. Опишем последовательность действий при извлечении знаний с помощью стемминга. Пусть <tex>t<tex> - некое рекламное словосочетание. Представим его в виде множества слов его образующих <tex>t=\{w_1, w_2, \ldots, w_n\}<tex>. Основу слова <tex>w_i<tex> обозначим через <tex>s_i=stem(w_i)<tex>, тогда множество основ словосочетания <tex>t<tex> обозначим через <tex>Stem(t)=\bigcup\limits_i stem(w_i)<tex>. Построим формальный контекст <tex>\K_{TS}=(T, S, I_{TS})<tex>, где <tex>T<tex> --- множество всех словосочетаний, а <tex>S<tex> --- множество основ всех словосочетаний из <tex>T<tex>, т.е. <tex>S=\bigcup\limits_i Stem(t_i)<tex>. Тогда <tex>tIs<tex> будет означать, что во множество основ словосочетания <tex>t<tex> входит основа <tex>s<tex>. Построим по такому контексту правила вида <tex>t \rightarrow s_i^{I_{TS}}<tex> для всех <tex>t \in T<tex>. Тогда такому метаправилу контекста <tex>\K_{TS}<tex> соответствует <tex>t \xrightarrow[]{FT} s_i^{I_{TS}}<tex> --- ассоциативное правило контекста <tex>\K_{FT}<tex>. Если величина поддержки и достоверности такого правила в контексте <tex>\K_{FT}<tex> превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту <tex>\K_{FT}<tex>, не столь интересными (их можно вывести из описания признаков). В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида <tex>t \xrightarrow[]{FT} \bigcup\limits_i s_i^{I_{TS}}<tex>, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида <tex>t \xrightarrow[]{FT} (\bigcup\limits_i s_i)^{I_{TS}}<tex>, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack'' --- игровой бизнес и ``black coat'' --- одежда. Такое объединение произошло благодаря наличию общего слова ``black''. А второй тип правил относится к более редким зависимостям, например, <tex>\{black~ jack\} \rightarrow \{black~jack~game~online\}<tex>. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида <tex>t_1 \xrightarrow[]{FT} t_2<tex>, такие что <tex>t_2^{I_{TS}} \subseteq t_1^{I_{TS}}<tex>. Такие правила имеют простую интерпретацию, из словосочетания <tex>t_2<tex> следует словосочетание множество основ которого вкладывается в множество основ <tex>t_1<tex>, например, <tex>\{ink \ jet\}\rightarrow\{ink\}<tex>, <tex>supp=14<tex>, а <tex>conf= 0,7<tex>. Для указанных выше задач автором предложены методики оценки качества поиска, основанные на мерах качества, применяемых в информационном поиске (точность, полнота, F-мера), разработке данных (поддержка) в сочетании с техниками оценки качества из машинного обучения, такими как скользящий контроль.$

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A4%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B8%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%BE%D0%B2_%D0%B8_%D1%80%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%86%D0%B8%D0%B9_%D0%B4%D0%BB%D1%8F_%D1%80%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%98%D0%BD%D1%82%D0%B5%D1%80%D0%BD%D0%B5%D1%82-%D1%80%D0%B5%D0%BA%D0%BB%D0%B0%D0%BC%D1%8B»

@@ Строка 1: / Строка 1: @@
- Одна из разновидностей электронной коммерции --- контекстная Интернет-реклама. Сейчас на рынке таких услуг крупными игроками являются поисковые системы, немалую часть прибыли которых составляет так называемая поисковая реклама. Для России репрезентативными примерами служат рекламные Интернет-сервисы ``Яндекс.Директ'' и ``Бегун''. Пользователю предлагается релевантная (с точки зрения поисковой системы) его поисковому запросу реклама. В отличие от задачи предоставления пользователю наиболее интересной ему поисковой рекламы, наша задача --- выявление рекламных слов, которые могут быть интересны рекламодателю. Предположим, что некая фирма $F$ приобрела ряд рекламных слов, которые описывают предоставляемые услуги. Как правило, на рынке уже существуют компании-конкуренты, поэтому вполне разумно было бы выяснить, какие рекламные слова приобрели они. Далее можно сравнить эти множества слов с теми, что купила $F$ и, исходя из частоты таких покупок, отобрать наиболее для нее интересные из неприобретенных. Такой механизм стимулирует продажи рекламы и позволяет устраивать своеобразный аукцион по определению цены того или иного рекламного словосочетания. Решение подобной задачи методами спектральной кластеризации описано в работах Жукова~Л.Е. Цель наших экспериментов не только расширить список методов бикластеризации пригодных для решения этой задачи, но и улучшить качество предложенных рекомендаций. Ниже приведено описание математической модели задачи.
+ Одна из разновидностей электронной коммерции --- контекстная Интернет-реклама. Сейчас на рынке таких услуг крупными игроками являются поисковые системы, немалую часть прибыли которых составляет так называемая поисковая реклама. Для России репрезентативными примерами служат рекламные Интернет-сервисы ``Яндекс.Директ'' и ``Бегун''. Пользователю предлагается релевантная (с точки зрения поисковой системы) его поисковому запросу реклама. В отличие от задачи предоставления пользователю наиболее интересной ему поисковой рекламы, наша задача --- выявление рекламных слов, которые могут быть интересны рекламодателю. Предположим, что некая фирма <tex>F<tex> приобрела ряд рекламных слов, которые описывают предоставляемые услуги. Как правило, на рынке уже существуют компании-конкуренты, поэтому вполне разумно было бы выяснить, какие рекламные слова приобрели они. Далее можно сравнить эти множества слов с теми, что купила <tex>F<tex> и, исходя из частоты таких покупок, отобрать наиболее для нее интересные из неприобретенных. Такой механизм стимулирует продажи рекламы и позволяет устраивать своеобразный аукцион по определению цены того или иного рекламного словосочетания. Решение подобной задачи методами спектральной кластеризации описано в работах Жукова~Л.Е. Цель наших экспериментов не только расширить список методов бикластеризации пригодных для решения этой задачи, но и улучшить качество предложенных рекомендаций. Ниже приведено описание математической модели задачи.
-Исходный массив данных описывается формальным контекстом $\K_{FT}=(F,T,I_{FT})$, $F$ (от firms) --- множество компаний-рекламодателей, а $T$ (от term) --- множество рекламных словосочетаний, $I$ --- отношение инцидентности, показывающее, что фирма $f \in F$ купила словосочетание $t \in T$ тогда и только тогда, когда $fIt$.
+Исходный массив данных описывается формальным контекстом <tex>\K_{FT}=(F,T,I_{FT})<tex>, <tex>F<tex> (от firms) --- множество компаний-рекламодателей, а <tex>T<tex> (от term) --- множество рекламных словосочетаний, <tex>I<tex> --- отношение инцидентности, показывающее, что фирма <tex>f \in F<tex> купила словосочетание <tex>t \in T<tex> тогда и только тогда, когда <tex>fIt<tex>.
 Для решения задачи последовательно применялись следующие подходы:
@@ Строка 18: / Строка 18: @@
 Для построения тематического каталога рекламных словосочетаний могут потребоваться словари синонимов, а учитывая тот факт, что такие словосочетания не всегда слова или сочетания двух слов, такие словари редки. Поэтому в качестве первого приближения для решения такой задачи можно использовать стемминг, или выделение основы слова. Опишем последовательность действий при извлечении знаний с помощью стемминга.
-Пусть $t$ - некое рекламное словосочетание. Представим его в виде множества слов его образующих $t=\{w_1, w_2, \ldots, w_n\}$. Основу слова $w_i$ обозначим через $s_i=stem(w_i)$, тогда множество основ словосочетания $t$ обозначим через $Stem(t)=\bigcup\limits_i stem(w_i)$. Построим формальный контекст $\K_{TS}=(T, S, I_{TS})$, где $T$ --- множество всех словосочетаний, а $S$ --- множество основ всех словосочетаний из $T$, т.е. $S=\bigcup\limits_i Stem(t_i)$. Тогда $tIs$ будет означать, что во множество основ словосочетания $t$ входит основа $s$.
+Пусть <tex>t<tex> - некое рекламное словосочетание. Представим его в виде множества слов его образующих <tex>t=\{w_1, w_2, \ldots, w_n\}<tex>. Основу слова <tex>w_i<tex> обозначим через <tex>s_i=stem(w_i)<tex>, тогда множество основ словосочетания <tex>t<tex> обозначим через <tex>Stem(t)=\bigcup\limits_i stem(w_i)<tex>. Построим формальный контекст <tex>\K_{TS}=(T, S, I_{TS})<tex>, где <tex>T<tex> --- множество всех словосочетаний, а <tex>S<tex> --- множество основ всех словосочетаний из <tex>T<tex>, т.е. <tex>S=\bigcup\limits_i Stem(t_i)<tex>. Тогда <tex>tIs<tex> будет означать, что во множество основ словосочетания <tex>t<tex> входит основа <tex>s<tex>.
-Построим по такому контексту правила вида $t \rightarrow s_i^{I_{TS}}$ для всех $t \in T$. Тогда такому метаправилу контекста $\K_{TS}$ соответствует $t \xrightarrow[]{FT} s_i^{I_{TS}}$ --- ассоциативное правило контекста $\K_{FT}$. Если величина поддержки и достоверности такого правила в контексте $\K_{FT}$ превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту $\K_{FT}$, не столь интересными  (их можно вывести из описания признаков).
+Построим по такому контексту правила вида <tex>t \rightarrow s_i^{I_{TS}}<tex> для всех <tex>t \in T<tex>. Тогда такому метаправилу контекста <tex>\K_{TS}<tex> соответствует <tex>t \xrightarrow[]{FT} s_i^{I_{TS}}<tex> --- ассоциативное правило контекста <tex>\K_{FT}<tex>. Если величина поддержки и достоверности такого правила в контексте <tex>\K_{FT}<tex> превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту <tex>\K_{FT}<tex>, не столь интересными  (их можно вывести из описания признаков).
-В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида  $t \xrightarrow[]{FT} \bigcup\limits_i s_i^{I_{TS}}$, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида  $t \xrightarrow[]{FT} (\bigcup\limits_i s_i)^{I_{TS}}$, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack'' --- игровой бизнес и ``black coat'' --- одежда. Такое объединение произошло благодаря наличию общего слова ``black''. А второй тип правил относится к более редким зависимостям, например,  $\{black~ jack\} \rightarrow \{black~jack~game~online\}$. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида $t_1 \xrightarrow[]{FT} t_2$, такие что $t_2^{I_{TS}} \subseteq t_1^{I_{TS}}$. Такие правила имеют простую интерпретацию, из словосочетания $t_2$ следует словосочетание множество основ которого вкладывается в множество основ $t_1$, например, $\{ink \ jet\}\rightarrow\{ink\}$,  $supp=14$, а $conf= 0,7$.
+В качестве более крупных метаправил предлагаются следующие две возможности. Во-первых, можно искать правила вида  <tex>t \xrightarrow[]{FT} \bigcup\limits_i s_i^{I_{TS}}<tex>, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида  <tex>t \xrightarrow[]{FT} (\bigcup\limits_i s_i)^{I_{TS}}<tex>, т.е. правила, термы в правой части которых содержат в своем составе те же основы, что и исходный. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например ``black jack'' --- игровой бизнес и ``black coat'' --- одежда. Такое объединение произошло благодаря наличию общего слова ``black''. А второй тип правил относится к более редким зависимостям, например,  <tex>\{black~ jack\} \rightarrow \{black~jack~game~online\}<tex>. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования. Предложено также использовать метаправила вида <tex>t_1 \xrightarrow[]{FT} t_2<tex>, такие что <tex>t_2^{I_{TS}} \subseteq t_1^{I_{TS}}<tex>. Такие правила имеют простую интерпретацию, из словосочетания <tex>t_2<tex> следует словосочетание множество основ которого вкладывается в множество основ <tex>t_1<tex>, например, <tex>\{ink \ jet\}\rightarrow\{ink\}<tex>,  <tex>supp=14<tex>, а <tex>conf= 0,7<tex>.
 Для указанных выше задач автором предложены методики оценки качества поиска, основанные на мерах качества, применяемых в информационном поиске (точность, полнота, F-мера), разработке данных (поддержка) в сочетании с техниками оценки качества из машинного обучения, такими как скользящий контроль.

Формирование бикластеров и рекомендаций для рекомендательной системы Интернет-рекламы

Материал из MachineLearning.

Версия 22:21, 4 ноября 2010

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты