Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

(Различия между версиями)

Версия 12:49, 7 мая 2008

Содержание

1 План-конспект лекции
2 Темы рефератов

Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.

Файл презентации, 764 КБ

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Поиск закономерностей в сверхбольших данных. Самплинг (sampling).

Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.

Ссылки:

J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.

Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).

Ссылки:

Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Прогнозирование плотности распределения (density forecast).

Ссылки:

Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

Лидеры конкурса Netflix
Collaborative Filtering Resources — софт, данные, статьи по CF.

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

www.antiplagiat.ru
Патент iParadigms
Интернет-математика отчёты по конкурсам Яндекс.

Темы рефератов

Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):

Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. В теме письма укажите: Реферат ВМиК: Фамилия, группа, тема реферата.

Не принимаются рефераты, написанные по материалам наших сайтов:

Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.

Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
- Что ещё можно мета-обучать?
  - Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
  - Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
- Делают ли самплинг по двум, трём и т.д. подвыборкам?
- Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
- Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
Обзор методов, применяемых для поиска заимствований.
Обзор методов, применяемых для оценивания сходства (релевантности) текстов.

Зачёт можно получить на кафедре ММП двумя способами:

Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.
Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Vokov/%D0%9D%D0%B5%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D1%8B%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%29»

@@ Строка 95: / Строка 95: @@
 * [http://citeseer.ist.psu.edu CiteSeer]
-Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[[Служебная:EmailUser/Vokov|присылаются лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
+Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''.
 {{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>.

Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

Версия 12:49, 7 мая 2008

Содержание

План-конспект лекции

Задачи обучения по прецедентам

Задачи и методы классификации

Прогнозирование временных рядов

Анализ клиентских сред

Анализ текстов

Темы рефератов

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты