Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
|
Лекция в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.
Файл презентации
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Дискретно-логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
- Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
- Collaborative Filtering Resources — софт, данные, статьи по CF.
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
- Патент iParadigms
- Интернет-математика отчёты по конкурсам Яндекс.
Темы рефератов
Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. |
Не принимаются рефераты, написанные по материалам сайтов
www.forecsys.ru, www.MachineLearning.ru, домашняя страница лектора |
- Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
- Оценивание вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
- Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
- Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
- Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
- Обзор методов, применяемых для поиска заимствований.
- Обзор методов, применяемых для оценивания сходства (релевантности) текстов.