Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
м |
|||
Строка 3: | Строка 3: | ||
{{S|28 апреля 2008 года.}} | {{S|28 апреля 2008 года.}} | ||
- | + | '''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]''' | |
== План-конспект лекции == | == План-конспект лекции == | ||
Строка 23: | Строка 23: | ||
Методы классификации (минутный обзор). | Методы классификации (минутный обзор). | ||
- | + | Логические методы классификации. | |
Требования интерпретируемости, информативности и покрытия. | Требования интерпретируемости, информативности и покрытия. | ||
Критерии закономерности и неслучайности. | Критерии закономерности и неслучайности. | ||
Строка 38: | Строка 38: | ||
# ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999. | # ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999. | ||
- | |||
Схожая задача: анализ рыночных корзин (market basket analysis). | Схожая задача: анализ рыночных корзин (market basket analysis). | ||
Методы поиска ассоциативных правил (association rule induction). | Методы поиска ассоциативных правил (association rule induction). | ||
- | + | ||
+ | '''Ссылки:''' | ||
+ | # ''Toivonen H.'' [http://citeseer.ist.psu.edu/toivonen96sampling.html Sampling large databases for association rules] // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145. | ||
=== Прогнозирование временных рядов === | === Прогнозирование временных рядов === | ||
Строка 90: | Строка 91: | ||
== Темы рефератов == | == Темы рефератов == | ||
{{tip| | {{tip| | ||
+ | Рефераты носят обзорный характер, в основном по материалам в Интернете. | ||
+ | Объём реферата — 5–10 страниц. | ||
+ | Рекомендуемые сайты для поиска: | ||
+ | * [http://www.google.ru Google] | ||
+ | * [http://citeseer.ist.psu.edu CiteSeer] | ||
+ | |||
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде<br/>и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''. | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде<br/>и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''. | ||
- | + | ||
- | + | '''Не принимаются рефераты''', написанные по материалам наших сайтов | |
- | '''Не принимаются рефераты''', написанные по материалам сайтов | + | * [http://www.forecsys.ru Форексис], |
- | [http://www.forecsys.ru | + | * [http://www.MachineLearning.ru www.MachineLearning.ru], |
- | [http://www.MachineLearning.ru www.MachineLearning.ru], | + | * [http://www.ccas.ru/voron домашняя страница лектора] |
- | [http://www.ccas.ru/voron домашняя страница лектора] | + | |
}} | }} | ||
# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction). | # Методы классификации, применяемые для предсказания ухода клиентов (churn prediction). | ||
Строка 102: | Строка 108: | ||
#* Для чего и как используются оценки вероятности ухода? | #* Для чего и как используются оценки вероятности ухода? | ||
#* Как планируются маркетинговые акции на основе сделанных предсказаний? | #* Как планируются маркетинговые акции на основе сделанных предсказаний? | ||
- | # Оценивание вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration). | + | # Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил. |
+ | #* Что ещё можно мета-обучать? | ||
+ | #** Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п. | ||
+ | #** Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении? | ||
+ | # Методы индукции правил на сверхбольших выборках | ||
+ | #* Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга? | ||
+ | #* Делают ли самплинг по двум, трём и т.д. подвыборкам? | ||
+ | #* Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил. | ||
+ | # Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration). | ||
#* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать! | #* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать! | ||
#* Логит-анализ, пробит-анализ... что ещё? | #* Логит-анализ, пробит-анализ... что ещё? | ||
Строка 114: | Строка 128: | ||
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | # Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | ||
#* Метод главных компонент, что ещё? | #* Метод главных компонент, что ещё? | ||
+ | # Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации. | ||
+ | #* Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering. | ||
+ | #* Предупреждение: скрытая информация не обязательно называется «тематическими профилями» | ||
# Обзор методов, применяемых для поиска заимствований. | # Обзор методов, применяемых для поиска заимствований. | ||
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов. | # Обзор методов, применяемых для оценивания сходства (релевантности) текстов. |
Версия 14:13, 28 апреля 2008
|
Лекция в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).
Ссылки:
- Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
- Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
- Collaborative Filtering Resources — софт, данные, статьи по CF.
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
- Патент iParadigms
- Интернет-математика отчёты по конкурсам Яндекс.
Темы рефератов
Рефераты носят обзорный характер, в основном по материалам в Интернете.
Объём реферата — 5–10 страниц. Рекомендуемые сайты для поиска: Рефераты подаются на кафедру ММП в бумажном виде Не принимаются рефераты, написанные по материалам наших сайтов |
- Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
- Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
- Что ещё можно мета-обучать?
- Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
- Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
- Что ещё можно мета-обучать?
- Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
- Делают ли самплинг по двум, трём и т.д. подвыборкам?
- Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
- Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
- Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
- Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
- Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
- Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
- Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
- Обзор методов, применяемых для поиска заимствований.
- Обзор методов, применяемых для оценивания сходства (релевантности) текстов.