Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материал из MachineLearning.
(→Невиртуальные семинары) |
(Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA) |
||
Строка 40: | Строка 40: | ||
== Невиртуальные семинары == | == Невиртуальные семинары == | ||
- | === 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар === | + | === Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар === |
Ведущие: [[Участник:Vokov|К.В.Воронцов]], [[Участник:AIM|А.И.Майсурадзе]], [[Участник:Nikita Pustovoytov|Н.Ю.Пустовойтов]]. | Ведущие: [[Участник:Vokov|К.В.Воронцов]], [[Участник:AIM|А.И.Майсурадзе]], [[Участник:Nikita Pustovoytov|Н.Ю.Пустовойтов]]. | ||
Строка 50: | Строка 50: | ||
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы. | На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы. | ||
- | === 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение === | + | === Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение === |
Выступление К.В.Воронцова на семинаре Б.Г.Миркина, [[Высшая школа экономики|ВШЭ]]. | Выступление К.В.Воронцова на семинаре Б.Г.Миркина, [[Высшая школа экономики|ВШЭ]]. | ||
Презентация: '''[[Media:Voron-2008-11-10-cf.pdf|(PDF, 1083 КБ)]]'''. | Презентация: '''[[Media:Voron-2008-11-10-cf.pdf|(PDF, 1083 КБ)]]'''. | ||
Строка 59: | Строка 59: | ||
* Простые методы коллаборативной фильтрации: user-based, item-based. | * Простые методы коллаборативной фильтрации: user-based, item-based. | ||
* Латентные методы: ко-кластеризация, матричные разложения, байесовские модели. | * Латентные методы: ко-кластеризация, матричные разложения, байесовские модели. | ||
+ | * PLSA — [[вероятностный латентный семантический анализ]]. | ||
* Вероятностная модель генерации посещений. | * Вероятностная модель генерации посещений. | ||
* [[EM-алгоритм]], симметризованный EM-алгоритм. | * [[EM-алгоритм]], симметризованный EM-алгоритм. | ||
Строка 64: | Строка 65: | ||
* Эксперименты по оптимизации параметров алгоритма. Исследование переобучения. | * Эксперименты по оптимизации параметров алгоритма. Исследование переобучения. | ||
- | === | + | === Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA === |
- | Ведущий: [[Участник: | + | Ведущий: [[Участник:Vokov|К.В.Воронцов]] |
'''План:''' | '''План:''' | ||
- | * | + | * ''Владимир Герасимов''. Инкрементальный вероятностный латентный семантический анализ. Презентация: '''[[Media:Gerasimov-2009-11-03-IncPLSA.pdf|(PDF, XXX КБ)]]''' |
+ | * ''Василий Лексин''. Иерархический вероятностный латентный семантический анализ. Презентация: '''[[Media:Leksin-2009-11-03-IncPLSA.pdf|(PDF, XXX КБ)]]''' | ||
+ | * Обсуждение проекта по созданию Полигона алгоритмов [[коллаборативная фильтрация|коллаборативной фильтрации]]. | ||
+ | |||
+ | '''Литература:''' | ||
+ | # | ||
== Ссылки == | == Ссылки == |
Версия 23:13, 3 ноября 2009
|
Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.
Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!
Ведущий семинара — Участник:Vokov
Задачи
Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.
Задача «Яндекс»
Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.
Ссылки:
- Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.
Задача «Нетфликс»
Ссылки:
- Конкурс Netflix — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
- Лидеры конкурса Netflix.
Задача «Ключевые слова»
Задача «Блоги»
В задаче существует несколько постановок с различными исходными данными.
Невиртуальные семинары
Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар
Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
План:
- Постановки стандартных задач
- Результаты студенческих работ по задаче «Нетфликс»
- Задача «Блоги»
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение
Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).
План:
- Постановка задач коллаборативной фильтрации.
- Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
- Простые методы коллаборативной фильтрации: user-based, item-based.
- Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
- PLSA — вероятностный латентный семантический анализ.
- Вероятностная модель генерации посещений.
- EM-алгоритм, симметризованный EM-алгоритм.
- Дальнейшие обобщения и усовершенствования алгоритма.
- Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.
Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA
Ведущий: К.В.Воронцов
План:
- Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, XXX КБ)
- Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, XXX КБ)
- Обсуждение проекта по созданию Полигона алгоритмов коллаборативной фильтрации.
Литература: