Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материал из MachineLearning.
м |
(→Невиртуальные семинары) |
||
Строка 41: | Строка 41: | ||
=== 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар === | === 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар === | ||
- | Ведущие: [[Участник:Vokov|К.В.Воронцов]], А.И.Майсурадзе, [[Участник:Nikita Pustovoytov|Н.Ю.Пустовойтов]]. | + | Ведущие: [[Участник:Vokov|К.В.Воронцов]], [[Участник:AIM|А.И.Майсурадзе]], [[Участник:Nikita Pustovoytov|Н.Ю.Пустовойтов]]. |
'''План:''' | '''План:''' | ||
Строка 50: | Строка 50: | ||
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы. | На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы. | ||
- | === | + | === 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение === |
- | + | Выступление К.В.Воронцова на семинаре Б.Г.Миркина, [[Высшая школа экономики|ВШЭ]]. | |
+ | Презентация: '''[[Media:Voron-2008-11-10-cf.pdf|(PDF, 1083 КБ)]]'''. | ||
'''План:''' | '''План:''' | ||
- | * | + | * Постановка задач коллаборативной фильтрации. |
+ | * Примеры приложений: рекомендующие системы, анализ текстов, социальные сети. | ||
+ | * Простые методы коллаборативной фильтрации: user-based, item-based. | ||
+ | * Латентные методы: ко-кластеризация, матричные разложения, байесовские модели. | ||
+ | * Вероятностная модель генерации посещений. | ||
+ | * [[EM-алгоритм]], симметризованный EM-алгоритм. | ||
+ | * Дальнейшие обобщения и усовершенствования алгоритма. | ||
+ | * Эксперименты по оптимизации параметров алгоритма. Исследование переобучения. | ||
- | === (время?) :: | + | === (время?) :: Методы анализа соотвествий в социологических исследованиях === |
- | + | Ведущий: [[Участник:AIM|А.И.Майсурадзе]], | |
'''План:''' | '''План:''' | ||
- | * | + | * |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
== Ссылки == | == Ссылки == |
Версия 13:36, 17 ноября 2008
|
Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.
Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!
Ведущий семинара — Участник:Vokov
Задачи
Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.
Задача «Яндекс»
Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.
Ссылки:
- Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.
Задача «Нетфликс»
Ссылки:
- Конкурс Netflix — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
- Лидеры конкурса Netflix.
Задача «Ключевые слова»
Задача «Блоги»
В задаче существует несколько постановок с различными исходными данными.
Невиртуальные семинары
15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар
Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
План:
- Постановки стандартных задач
- Результаты студенческих работ по задаче «Нетфликс»
- Задача «Блоги»
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение
Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).
План:
- Постановка задач коллаборативной фильтрации.
- Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
- Простые методы коллаборативной фильтрации: user-based, item-based.
- Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
- Вероятностная модель генерации посещений.
- EM-алгоритм, симметризованный EM-алгоритм.
- Дальнейшие обобщения и усовершенствования алгоритма.
- Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.
(время?) :: Методы анализа соотвествий в социологических исследованиях
Ведущий: А.И.Майсурадзе,
План: