Анализ клиентских сред

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (оформление)
Строка 197: Строка 197:
== Ссылки ==
== Ссылки ==
 +
* [[Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)]]
{{Stub}}
{{Stub}}
Строка 202: Строка 203:
[[Категория:Популярные и обзорные статьи]]
[[Категория:Популярные и обзорные статьи]]
[[Категория:Энциклопедия анализа данных]]
[[Категория:Энциклопедия анализа данных]]
 +
[[Категория:Коллаборативная фильтрация]]

Версия 18:38, 16 июля 2008

Содержание

Клиентская среда — это совокупность клиентов (пользователей, cубъектов), регулярно пользующихся фиксированным набором сервисов (товаров, ресурсов, предметов, объектов). Предполагается, что действия клиентов протоколируются в электронном виде. Примерами действий являются: использование сервиса или покупка товара, оценивание (рейтингование) сервиса или товара, обращение за информацией, оплата услуг, выбор тарифного плана, участие в маркетинговой акции, получение бонуса от компании, отказ от обслуживания, и т. д.

Анализ клиентских сред, АКС (customer environment analysis, CEA) — это технология обработки протоколов действий клиентов, позволяющая эффективно вычислять взаимно согласованные оценки сходства клиентов и сервисов, и использовать их для решения таких бизнес-задач, как автоматизация маркетинговых исследований, формирование направленных предложений клиентам, персонализация сервисов, повышение удовлетворённости и лояльности клиентов, более эффективное привлечение и удержание клиентов.

Концепция клиентской среды введена К. В. Рудаковым в конце 90-х и положена в основу технологии анализа клиентских сред, развиваемой компанией Форексис.

Технология АКС может быть использована для построения рекомендующих систем (recommender system), персонализации предложений (targeting, direct marketing), и управления взаимоотношениями с клиентами (customer relationship management, CRM).

Наиболее близким к АКС направлением является коллаборативная фильтрация (collaborative filtering, CF). АКС имеет два основных отличия:

  • АКС нацелен на получение взаимно согласованных оценок сходства клиентов и сервисов. Клиенты и сервисы рассматриваются как равноправные, двойственные сущности. Любой анализ, сделанный относительно клиентов, может быть путём «транспонирования» перенесён на сервисы, и наоборот. Методы коллаборативной фильтрации, особенно простые, не допускают такой двойственности.
  • АКС рассматривает весь комплекс задач и методов, связанных с дальнейшим использованием полученных оценок сходства для визуализации, кластеризации, классификации и прогнозирования поведения клиентов. В то же время, работы по коллаборативной фильтрации в большинстве случаев ограничиваются узкими постановками задач — предсказания рейтингов и формирования персонального предложения.

Примеры клиентских сред

Клиентские среды возникают в самых разных сферах бизнеса, и не только бизнеса. Можно говорить о клиентских средах производителей товаров, дилерских сетей, сетей супермаркетов, операторов связи, эмитентов пластиковых карт, библиотек, интернет-магазинов, поисковых машин, социальных сетей, форумов, блогов и т. д.

Возможны и такие приложения АКС, в которых сами термины «клиенты» и «сервисы» едва ли применимы, например анализ текстов или анализ результатов парламентских выборов. Однако математические методы обработки данных остаются теми же.

Торговые сети

«Сервисами» являются товары, «клиентами» — постоянные покупатели, имеющие дисконтную карту. Действия клиентов — это покупки товаров.

Примеры задач:

  • Сделать клиенту направленное предложение тех товаров, которые ему с большой вероятностью понравятся. Персональное предложение может печататься с обратной стороны чека или выводиться на специальном терминале по запросу клиента.
  • Вовремя подсказать клиенту, где находится новый товар, о котором ещё мало кто знает, но который с большой вероятностью заинтересует данного клиента.

Операторы сотовой связи

«Сервисами» являются различные услуги (типы соединений), «клиентами» — абоненты сети. Действия клиентов — это звонки различных типов (входящие, исходящие, междугородние, международные, SMS, MMS, и т. д.), платежи, подключения и отключения услуг, смены тарифных планов, обращения в сервисный центр, и т. д.

Примеры задач:

  • Прогнозирование ухода клиентов (churn prediction), на основе сходства с уже ушедшими клиентами.
  • Сегментация клиентской базы, выделение целевых групп клиентов.
  • Выявление схожих услуг при формировании пакетных предложений.
  • Выявление необычного или потенциально опасного поведения клиентов (fraud detection).

Интернет-магазины книжной, аудио и видео продукции

«Сервисами» являются товары (книги, диски, фильмы, и т. д.), «клиентами» — постоянные покупатели. Действия клиентов — это либо покупки товаров, либо оценки (рейтинги) товаров.

Примеры задач:

  • Предсказать рейтинги товаров для данного пользователя и предложить ему список товаров, наиболее интересных для него.
  • Предложить персональную скидку на совместную покупку нескольких товаров (cross-selling).
  • Вовремя информировать клиента о появлении новых интересных для него товаров (up-selling).

Поисковые машины

«Сервисы» — это страницы или документы, предлагаемые в качестве результатов поиска, «клиенты» — пользователи поисковой машины. Действия клиентов — это переходы со страницы результатов поиска к найденному документу. В данном приложении технология АКС примыкает к анализу веба (web mining), точнее, к анализу поведения пользователей веба (web usage mining).

Примеры задач:

  • Ранжировать результаты поиска в таком порядке, чтобы в начале списка оказались документы, с большой вероятностью интересные для данного пользователя.
  • Разместить на странице таргетированную рекламу, предлагая данному пользователю посетить сайты, с большой вероятностью интересные именно ему, именно в данный момент.
  • Найти для данного сайта список наиболее близких к нему сайтов (например, для автоматической генерации страницы полезных ссылок).
  • Найти для данного сайта список сайтов, наиболее близких к нему относительно данного пользователя (для автоматической генерации персонализированного списка рекомендуемых ссылок).

Парламентские выборы

Здесь в роли «сервисов» выступают политические партии, «клиентами» являются субъекты федерации, территориальные избирательные округа или избирательные участки. «Действия клиента» — это голоса избирателей, отданные партиям.

Задачи связаны в основном с интерпретацией результатов выборов:

  • Отранжировать партии по сходству относительно любой заданной партии.
  • Отранжировать регионы по сходству относительно любого заданного региона.
  • Понять и визуализировать (например, с помощью карты сходства) политический спектр партий.
  • Выделить схожие партии, «перетягивающие» голоса друг у друга.
  • Выделить регионы, в которых данная партия могла бы перетянуть голоса у других партий.

Анализ текстов

В данном случае «сервисами» являются ключевые слова или выражения, «клиентами» — тексты. «Действие клиента» соответствует тому, что данное ключевое слово встречается в данном тексте.

Примеры задач:

  • Автоматическая классификация и рубрикации больших объемов текстовых документов или новостных потоков.
  • Поиск документов по сходству с данным документом.
  • Поиск наиболее полных и релевантных документов по данной теме.

Социальные сети

В простейшем случае «сервисами» являются страницы (записи в блоге, личные страницы пользователей, разделы форума), «клиентами» — пользователи социального сервиса. Действия клиента — посещение страницы, просмотр сообщений, создание собственных сообщений, добавление/удаление друзей, и т. д. Социальные сети являются более сложным примером клиентской среды, поскольку в них приходится применять анализ текстовой информации. В общем случае имеется уже не два типа взаимосвязных сущностей (клиенты и сервисы), а три: пользователи, страницы и ключевые слова.

Примеры задач:

  • Персональное предложение интересных для данного пользователя страниц, форумов, контактов.
  • Автоматическая персонализированная классификация и рубрикация страниц, форумов, контактов.
  • Поиск единомышленников (like-minded people), похожих людей (neighbours).

Основные принципы АКС

Технология АКС основана на вычислении количественных оценок сходства между сервисами и между клиентами. Функция расстояния (метрика) на множестве клиентов позволяет решать задачи классификации, кластеризации, сегментации, поиска схожих клиентов, обнаружения необычного поведения клиентов. Метрика на множестве сервисов позволяет структурировать ассортимент, позиционировать сервисы, находить сопутствующие и взаимозаменяемые сервисы. При решении задач персонализации и направленного маркетинга приходится использовать обе метрики одновременно.

Взаимосогласованные оценки сходства клиентов и сервисов

В простейших случаях сходство сервисов можно оценить по принципу «сервисы схожи, если ими пользуются одни и те же клиенты; чем больше общих клиентов, тем более схожи сервисы». Известно, например, что более 95% пользователей Amazon.com не упускают возможности узнать, «какие ещё книги покупают клиенты, купившие эту книгу». Однако данный принцип сходства имеет ограниченную сферу применимости, так как он выдвигает чрезмерно жёсткое требование, чтобы схожие сервисы имели одних и тех же общих клиентов, тогда как вполне достаточно, чтобы они имели схожих клиентов. Например, сайты двух конкурирующих производителей видеотехники могут иметь очень мало общих клиентов, тем не менее, они схожи как по тематике, так и по целевой аудитории.

Более адекватные результаты даёт усовершенствованный принцип сходства: «сервисы схожи, если ими пользуются схожие (но не обязательно одни и те же) клиенты; в свою очередь, клиенты схожи, если они пользуются схожими (но не обязательно одинаковыми) сервисами». Этот принцип сложнее с точки зрения анализа данных, так как две меры сходства оказываются зависимыми друг от друга. Эффективная реализация этой идеи возможна путём выявления скрытых профилей и итеративного оценивания схожести.

Скрытые профили клиентов и сервисов

Действия клиента являются проявлением его предпочтений, вкусов, привычек (taste). Предполагается, что существует скрытый профиль клиента — вектор, координаты которого соответствуют всевозможным предпочтениям; значение координаты есть относительная важность данного предпочтения для данного клиента.

Иногда бывает доступна небольшая часть пользовательского профиля в виде социально-демографических характеристик, собираемых через анкету. Анкета содержит такие атрибуты, как возраст, пол, город, образование, семейное положение, профессию, достаток, сферы интересов, и т. п. Качество анкетных данных, как правило, невысоко: они неточны, субъективны, содержат много пропусков и собираются лишь по части клиентов.

С другой стороны, каждый сервис также имеет свой скрытый профиль — это набор предпочтений, которые он способен удовлетворить. В некоторых случаях и здесь можно рассчитывать на наличие дополнительных данных. Во-первых, это каталоги сервисов, которые для удобства представляются в виде иерархии разделов или тем. Эта иерархия отражает структуру пользовательских предпочтений и образует тематическую часть профиля. Во-вторых, иногда бывают доступны некоторые атрибуты сервисов. Например, если речь идёт о товарах, то это производитель, стоимость, потребительские качества, и т. д. Эти данные вводятся либо экспертами, либо путём автоматической обработки текстовых описаний товаров. Данные о сервисах также могут быть неточными, субъективными и неполными.

Основная задача заключается в том, чтобы восстановить скрытые профили клиентов и сервисов на основе наблюдаемых косвенных данных — протоколов действий клиентов и, возможно, дополнительной информации, имеющей, как правило, довольно низкое качество.

Унифицированный скрытый профиль

В результате огромного количества отдельных выборов сервисы и клиенты перенимают атрибуты друг друга. Например, атрибут «возраст» на первый взгляд принадлежит исключительно клиентам. Однако сервисы, часто выбираемые клиентами от 15 до 25 лет, также приобретают этот атрибут и характеризуются как «молодёжные». С другой стороны, атрибут «классическая музыка», первоначально характеризующий положение музыкальных дисков в тематическом каталоге, переносится на тех пользователей, которые часто заказывают такие диски или прослушивают такие mp3-файлы.

Объединение атрибутов клиентов и сервисов в единый унифицированный профиль даёт ряд важных преимуществ:

  • появляется возможность интерпретировать любой сервис или группу сревисов, а также любого клиента или группу клиентов в терминах, понятных маркетологам;
  • можно сравнивать не только клиентов с клиентами и сервисы с сервисами, но и клиентов с сервисами;
  • можно проводить сравнение по «частичному» профилю; например, сравнивать клиентов относительно заданного сервиса (группы сервисов) или сравнивать сервисы относительно заданного клиента (группы клиентов);
  • можно отказаться от хранения огромных объёмов сырых исходных данных и строить масштабируемые решения, выбирая размер хранимых профилей; в частности, тематический каталог может быть усечён на любом уровне иерархии;
  • обновление профилей не требует громоздких вычислений и может происходить в режиме реального времени;
  • достаточно лишь небольшого объёма данных о клиенте, чтобы восстановить его профиль; это достигается благодаря привлечению информации не только о данном клиенте, но и о схожих с ним клиентах;
  • профиль сервиса может быть построен априори, на основе его рубрикации или атрибутов, присвоенных экспертами; это снимает проблему «холодного старта» (‘cold start’ problem), когда новый сервис не предлагается из-за того, что он ещё никем не был выбран, и никем не выбирается из-за того, что он ещё никому не предлагался.

Итерационное согласование профилей клиентов и сервисов

Унифицированные скрытые профили клиентов и сервисов восстанавливаются по исходным протоколам действий клиентов. При этом известные части профилей некоторых клиентов и некоторых сервисов играют роль начального приближения. Вполне допустимо, чтобы качество этой информации было относительно низким, так как в дальнейшем она корректируется объективными данными, содержащимися в протоколах. С другой стороны, эта информация задаёт структуру унифицированного профиля и предопределяет интерпретацию его компонент.

Для восстановления скрытых профилей используются итерационные методы типа EM-алгоритма (expectation-maximization). Знание скрытых профилей сервисов позволяет оценить профили клиентов; и, наоборот, знание профилей клиентов позволяет оценить профили сервисов. На этом принципе и основаны итерационные методы взаимного согласования скрытых профилей.

Агрегирование профилей

Иногда требуется построить профиль группы клиентов (например, чтобы сделать одинаковое направленное предложение целому сегменту клиентов) или группы сервисов (например, чтобы объединить схожие сервисы при автоматическом построении рубрикатора). В этих случаях профили приходится агрегировать. Агрегирование не сводится к простому усреднению профилей. Агрегированный профиль строится путём восстановления скрытых профилей по данным, в которых все клиенты (или сервисы) заданной группы помечены одним идентификатором, то есть рассматриваются как один клиент (сервис). Для одновременного построения всех агрегированных профилей используется специальный иерархический вариант EM-алгоритма.

Применение профилей и оценок сходства для решения бизнес-задач

После того, как скрытые профили восстановлены, решение широкого спектра бизнес-задач становится относительно простым делом. Основной операцией является поиск множества профилей (клиентов или сервисов), схожих с заданным профилем, соотвествующим клиенту, сервису, или группе клиентов или сервисов.

В зависимости от целей анализа функция сходства (или метрика) на профилях определяется по-разному. Часто имеет смысл использовать метрику, построенную не по всему профилю, а только по его небольшой части. Это позволяет эффективно локализовать поиск и избежать проблемы «проклятия размерности».

Примеры:

  • При поиске сервисов, интересных данному пользователю, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые.
  • При поиске сервисов, интересных данному пользователю в данный момент времени, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые по данным о его последних посещениях.
  • При поиске сервисов, связанных с данным сервисом, учитываются только те компоненты профиля, которые для данного сервиса оценены как ненулевые.
  • При поиске клиентов, похожих на данного клиента (like-minded people), учитывается относительная мощность пересечения множеств ненулевых компонент пары клиентов.

Компоненты технологии АКС

Литература

Ссылки