Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 3: Строка 3:
{{S|28 апреля 2008 года.}}
{{S|28 апреля 2008 года.}}
-
Файл презентации: [[Медиа:VokovLectureMMP-2008.pdf]], 764 КБ
+
'''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]'''
== План-конспект лекции ==
== План-конспект лекции ==
Строка 23: Строка 23:
Методы классификации (минутный обзор).
Методы классификации (минутный обзор).
-
Дискретно-логические методы классификации.
+
Логические методы классификации.
Требования интерпретируемости, информативности и покрытия.
Требования интерпретируемости, информативности и покрытия.
Критерии закономерности и неслучайности.
Критерии закономерности и неслучайности.
Строка 38: Строка 38:
# ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999.
# ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999.
-
<!--
 
Схожая задача: анализ рыночных корзин (market basket analysis).
Схожая задача: анализ рыночных корзин (market basket analysis).
Методы поиска ассоциативных правил (association rule induction).
Методы поиска ассоциативных правил (association rule induction).
-
-->
+
 
 +
'''Ссылки:'''
 +
# ''Toivonen H.'' [http://citeseer.ist.psu.edu/toivonen96sampling.html Sampling large databases for association rules] // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
=== Прогнозирование временных рядов ===
=== Прогнозирование временных рядов ===
Строка 90: Строка 91:
== Темы рефератов ==
== Темы рефератов ==
{{tip|
{{tip|
 +
Рефераты носят обзорный характер, в основном по материалам в Интернете.
 +
Объём реферата — 5–10 страниц.
 +
Рекомендуемые сайты для поиска:
 +
* [http://www.google.ru Google]
 +
* [http://citeseer.ist.psu.edu CiteSeer]
 +
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде<br/>и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде<br/>и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
-
}}
+
 
-
{{stop|
+
'''Не принимаются рефераты''', написанные по материалам наших сайтов
-
'''Не принимаются рефераты''', написанные по материалам сайтов
+
* [http://www.forecsys.ru Форексис],
-
[http://www.forecsys.ru www.forecsys.ru],
+
* [http://www.MachineLearning.ru www.MachineLearning.ru],
-
[http://www.MachineLearning.ru www.MachineLearning.ru],
+
* [http://www.ccas.ru/voron домашняя страница лектора]
-
[http://www.ccas.ru/voron домашняя страница лектора]
+
}}
}}
# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
Строка 102: Строка 108:
#* Для чего и как используются оценки вероятности ухода?
#* Для чего и как используются оценки вероятности ухода?
#* Как планируются маркетинговые акции на основе сделанных предсказаний?
#* Как планируются маркетинговые акции на основе сделанных предсказаний?
-
# Оценивание вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
+
# Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
 +
#* Что ещё можно мета-обучать?
 +
#** Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
 +
#** Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
 +
# Методы индукции правил на сверхбольших выборках
 +
#* Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
 +
#* Делают ли самплинг по двум, трём и т.д. подвыборкам?
 +
#* Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
 +
# Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
#* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
#* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
#* Логит-анализ, пробит-анализ... что ещё?
#* Логит-анализ, пробит-анализ... что ещё?
Строка 114: Строка 128:
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
#* Метод главных компонент, что ещё?
#* Метод главных компонент, что ещё?
 +
# Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
 +
#* Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
 +
#* Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
# Обзор методов, применяемых для поиска заимствований.
# Обзор методов, применяемых для поиска заимствований.
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.

Версия 14:13, 28 апреля 2008

Содержание

Лекция в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.

Файл презентации, 764 КБ

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Поиск закономерностей в сверхбольших данных. Самплинг (sampling).

Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.

Ссылки:

  1. J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.

Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).

Ссылки:

  1. Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Прогнозирование плотности распределения (density forecast).

Ссылки:

  1. Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
  2. Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

  1. Лидеры конкурса Netflix
  2. Collaborative Filtering Resources — софт, данные, статьи по CF.

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

  1. www.antiplagiat.ru
  2. Патент iParadigms
  3. Интернет-математика отчёты по конкурсам Яндекс.

Темы рефератов

Рефераты носят обзорный характер, в основном по материалам в Интернете.

Объём реферата — 5–10 страниц. Рекомендуемые сайты для поиска:

Рефераты подаются на кафедру ММП в бумажном виде
и присылаются лектору в электронном виде для проверки в системе Антиплагиат.

Не принимаются рефераты, написанные по материалам наших сайтов


  1. Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
    • Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
    • Для чего и как используются оценки вероятности ухода?
    • Как планируются маркетинговые акции на основе сделанных предсказаний?
  2. Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
    • Что ещё можно мета-обучать?
      • Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
      • Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
  3. Методы индукции правил на сверхбольших выборках
    • Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
    • Делают ли самплинг по двум, трём и т.д. подвыборкам?
    • Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
  4. Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
    • Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
    • Логит-анализ, пробит-анализ... что ещё?
    • Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
  5. Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
    • Нейросеть не предлагать!
    • Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
    • Как учитываются взаимозависимости товаров при прогнозировании?
  6. Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
    • Погода и её прогноз, фьючерсы, что ещё?
  7. Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
    • Метод главных компонент, что ещё?
  8. Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
    • Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
    • Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
  9. Обзор методов, применяемых для поиска заимствований.
  10. Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
Личные инструменты