Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материал из MachineLearning.

Версия от 01:07, 4 ноября 2009; Homek (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Задачи
2 Невиртуальные семинары
3 Ссылки

Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.

Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!

Ведущий семинара — Участник:Vokov

Задачи

Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.

Задача «Яндекс»

Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.

Ссылки:

Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.

Задача «Нетфликс»

Ссылки:

Конкурс Netflix — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
Лидеры конкурса Netflix.

Задача «Ключевые слова»

Задача «Блоги»

В задаче существует несколько постановок с различными исходными данными.

Невиртуальные семинары

Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар

Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.

План:

Постановки стандартных задач
Результаты студенческих работ по задаче «Нетфликс»
Задача «Блоги»

На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.

Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение

Выступление К.В.Воронцова на семинаре Б.Г.Миркина, ВШЭ. Презентация: (PDF, 1083 КБ).

План:

Постановка задач коллаборативной фильтрации.
Примеры приложений: рекомендующие системы, анализ текстов, социальные сети.
Простые методы коллаборативной фильтрации: user-based, item-based.
Латентные методы: ко-кластеризация, матричные разложения, байесовские модели.
PLSA — вероятностный латентный семантический анализ.
Вероятностная модель генерации посещений.
EM-алгоритм, симметризованный EM-алгоритм.
Дальнейшие обобщения и усовершенствования алгоритма.
Эксперименты по оптимизации параметров алгоритма. Исследование переобучения.

Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA

Ведущий: К. В. Воронцов

План:

Владимир Герасимов. Инкрементальный вероятностный латентный семантический анализ. Презентация: (PDF, 259 КБ)

Возникшие вопросы:

Как изменится предложенный алгоритм если в протокол добавлятся новые записи о существующих клиентах и ресурсах?
Нужно проверить не портятся ли старые профили при внесении новых данных.

Василий Лексин. Иерархический вероятностный латентный семантический анализ. Презентация: (PDF, XXX КБ)
Обсуждение проекта по созданию Полигона алгоритмов коллаборативной фильтрации.

Литература:

Incremental Probabilistic Latent Semantic Analysis for Automatic Question Recommendation (PDF, 2,15 MB)
Using Incremental PLSI for Threshold-Resilient Online Event Analysis (PDF, 2,51 MB)

Ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D1%81%D0%BA%D0%B8%D1%85_%D1%81%D1%80%D0%B5%D0%B4_%D0%B8_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%B0%D1%8F_%D1%84%D0%B8%D0%BB%D1%8C%D1%82%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%28%D0%B2%D0%B8%D1%80%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%29»

Категории: Виртуальные семинары | Коллаборативная фильтрация

Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материал из MachineLearning.

Содержание

Задачи

Задача «Яндекс»

Задача «Нетфликс»

Задача «Ключевые слова»

Задача «Блоги»

Невиртуальные семинары

Семинар 15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар

Семинар 10 ноября 2008, ВШЭ :: Методы коллаборативной фильтрации и их применение

Семинар 3 ноября 2009, ВЦ РАН :: Инкрементальные и иерархические методы PLSA

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты