Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материал из MachineLearning.
|
Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.
Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!
Ведущий семинара — Участник:Vokov
Задачи
Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.
Задача «Яндекс»
Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.
Ссылки:
- Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.
Задача «Нетфликс»
Ссылки:
- Конкурс Netflix — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные.
- Лидеры конкурса Netflix.
Задача «Ключевые слова»
Задача «Блоги»
В задаче существует несколько постановок с различными исходными данными.
Невиртуальные семинары
Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар
Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
План:
- Постановки стандартных задач
- Результаты студенческих работ по задаче «Нетфликс»
- Задача «Блоги»
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение
Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).
План:
- Постановка задач коллаборативной фильтрации.
- Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
- Простые методы коллаборативной фильтрации: user-based, item-based.
- Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
- PLSA — вероятностный латентный семантический анализ.
- Вероятностная модель генерации посещений.
- EM-алгоритм, симметризованный EM-алгоритм.
- Дальнейшие обобщения и усовершенствования алгоритма.
- Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.
Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA
Ведущий: К. В. Воронцов
План:
- Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, 259 КБ)
- Возникшие вопросы:
- Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
- Нужно проверить не портятся ли старые профили при внесении новых данных.
- Возникшие вопросы:
- Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, 140 КБ)
- Возникшие вопросы:
- Критерий содержит много эвристики, как от нее избавиться?
- А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
- Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?
- Возникшие вопросы:
- Обсуждение проекта по созданию Полигона алгоритмов коллаборативной фильтрации.
Литература:
- Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation (PDF, 2,15 MB)
- Using Incremental PLSI for Threshold-Resilient Online Event Analysis (PDF, 2,51 MB)
- Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. (PDF, 267 KB)