Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материал из MachineLearning.
|
Данная страница предназначена для обсуждения задач и методов, планов и результатов исследований по направлениям Коллаборативная фильтрация и Анализ клиентских сред.
Семинар ориентирован в первую очередь на студентов и аспирантов кафедры Интеллектуальные системы ФУПМ МФТИ и кафедры Математические методы прогнозирования ВМиК МГУ. Все желающие интересующиеся могут присоединяться!
Ведущий семинара — Участник:Vokov
Задачи
Здесь перечислены задачи, по которым у нас есть данные, либо по которым ожидается получить данные в ближайшее время.
Задача «Яндекс»
Исходными данными являются протоколы переходов пользователей на ресурсы, найденные поисковой машиной. Лог поисковой машины, предоставленный компанией Яндекс (по конкурсу на стипендию Яндекс, 2005г.), охватывает 7 дней, по 5–10 миллионов запросов в день, и имеет объём 3.6Мб. Для каждого запроса лог содержит уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным им документам. В простейшем варианте тексты запросов и время обращения пользователей к документам можно не анализировать, учитывая только сами факты выбора документов. Лог содержит данные о U = 14 606 пользователях и 207 312 запросах. Из 1 972 636 документов, предлагавшихся поисковой машиной в качестве результатов поиска, R = 129 600 были выбраны пользователями.
Ссылки:
- Отчёт 2005. Применение технологии АКС для обработки логов поисковой машины Яндекс. Строятся оценки сходства пользователей и сайтов (документов), приводятся фрагменты глобальной и персонализированной карт сходства сайтов.
Задача «Нетфликс»
Ссылки:
- Конкурс Netflix — условия конкурса; здесь же можно зарегистрироваться и скачать данные.
- Лидеры конкурса Netflix.
Задача «Ключевые слова»
Задача «Блоги»
В задаче существует несколько постановок с различными исходными данными.
Невиртуальные семинары
15 июля 2008, ВЦ РАН :: Вводно-обзорный семинар
Ведущие: К.В.Воронцов, А.И.Майсурадзе, Н.Ю.Пустовойтов.
План:
- Постановки стандартных задач
- Результаты студенческих работ по задаче «Нетфликс»
- Задача «Блоги»
На следующих семинарах предполагается подробнее рассматривать математические методы и алгоритмы.
(время?) :: Методы коллаборативной фильтрации в социологических исследованиях
Ведущий: А.И.Майсурадзе
План:
(время?) :: Латентные модели
Ведущие: К.В.Воронцов, В.А.Лексин
План:
- Вероятностная модель генерации посещений
- EM-алгоритм
- Симметризованный EM-алгоритм
- Эксперименты по оптимизации параметров алгоритма. Переобучение.
- Постановки задач по усовершенствованию алгоритма.