Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материал из MachineLearning.
(→Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA) |
м (→Задача «Нетфликс»: немного устарело) |
||
(7 промежуточных версий не показаны.) | |||
Строка 30: | Строка 30: | ||
'''Ссылки:''' | '''Ссылки:''' | ||
- | * [http://www.netflixprize.com Конкурс Netflix] — условия конкурса; здесь же можно зарегистрироваться и скачать данные. | + | * [http://www.netflixprize.com Конкурс Netflix] — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные. |
* [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]. | * [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]. | ||
Строка 66: | Строка 66: | ||
=== Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA === | === Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA === | ||
- | Ведущий: [[Участник:Vokov|К. | + | Ведущий: [[Участник:Vokov|К. В. Воронцов]] |
'''План:''' | '''План:''' | ||
* ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF, 259 КБ)]]''' | * ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF, 259 КБ)]]''' | ||
- | * ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03- | + | ::'''Возникшие вопросы:''' |
+ | ::*Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах? | ||
+ | ::*Нужно проверить не портятся ли старые профили при внесении новых данных. | ||
+ | |||
+ | * ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03-HPLSA.pdf|(PDF, 140 КБ)]]''' | ||
+ | ::'''Возникшие вопросы:''' | ||
+ | ::*Критерий содержит много эвристики, как от нее избавиться? | ||
+ | ::*А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности. | ||
+ | ::*Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно? | ||
* Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]]. | * Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]]. | ||
'''Литература:''' | '''Литература:''' | ||
- | #Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation'''[[Media:IPLSA for Q&A systems.pdf|(PDF, 2,15 MB)]]''' | + | # Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation '''[[Media:IPLSA for Q&A systems.pdf|(PDF, 2,15 MB)]]''' |
- | #Using Incremental PLSI for Threshold-Resilient Online Event Analysis '''[[Media:UsingIPLSA.pdf|(PDF, 2, | + | # Using Incremental PLSI for Threshold-Resilient Online Event Analysis '''[[Media:UsingIPLSA.pdf|(PDF, 2,51 MB)]]''' |
+ | # Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. '''[[Media:vinokourov02probabilistic.pdf|(PDF, 267 KB)]]''' | ||
== Ссылки == | == Ссылки == | ||
* [[Анализ клиентских сред]] | * [[Анализ клиентских сред]] | ||
* [[Коллаборативная фильтрация]] | * [[Коллаборативная фильтрация]] | ||
+ | * [[Полигон алгоритмов коллаборативной фильтрации]] | ||
[[Категория:Виртуальные семинары]] | [[Категория:Виртуальные семинары]] | ||
[[Категория:Коллаборативная фильтрация]] | [[Категория:Коллаборативная фильтрация]] |
Текущая версия
|
Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.
Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!
Ведущий семинара — Участник:Vokov
Задачи
Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.
Задача «Яндекс»
Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.
Ссылки:
- Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.
Задача «Нетфликс»
Ссылки:
- Конкурс Netflix — здесь размещались условия конкурса; здесь так же можно было зарегистрироваться и скачать данные.
- Лидеры конкурса Netflix.
Задача «Ключевые слова»
Задача «Блоги»
В задаче существует несколько постановок с различными исходными данными.
Невиртуальные семинары
Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар
Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
План:
- Постановки стандартных задач
- Результаты студенческих работ по задаче «Нетфликс»
- Задача «Блоги»
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение
Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).
План:
- Постановка задач коллаборативной фильтрации.
- Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
- Простые методы коллаборативной фильтрации: user-based, item-based.
- Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
- PLSA — вероятностный латентный семантический анализ.
- Вероятностная модель генерации посещений.
- EM-алгоритм, симметризованный EM-алгоритм.
- Дальнейшие обобщения и усовершенствования алгоритма.
- Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.
Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA
Ведущий: К. В. Воронцов
План:
- Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, 259 КБ)
- Возникшие вопросы:
- Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
- Нужно проверить не портятся ли старые профили при внесении новых данных.
- Возникшие вопросы:
- Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, 140 КБ)
- Возникшие вопросы:
- Критерий содержит много эвристики, как от нее избавиться?
- А действительно ли стоит расщеплять темы в профиле, то есть содержат ли расщеплённые темы действительно значимо различающуюся информацию? Возможно необходимо ввести статистические критерии типа проверки однородности.
- Как повысить эффективность алгоритма, ведь придётся многократно повторять попытки то расщеплять профиль, то склеивать его обратно?
- Возникшие вопросы:
- Обсуждение проекта по созданию Полигона алгоритмов коллаборативной фильтрации.
Литература:
- Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation (PDF, 2,15 MB)
- Using Incremental PLSI for Threshold-Resilient Online Event Analysis (PDF, 2,51 MB)
- Vinokourov A., Girolami M. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections // Information Processing and Management. — 2002. (PDF, 267 KB)