Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

< Участник:Vokov(Различия между версиями)
Перейти к: навигация, поиск
м
 
(11 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
Лекция читается в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}.
+
Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»'''
-
{{S|28 апреля 2008 года.}}
+
студентам {{S|5 курса ВМиК МГУ}}, {{S|28 апреля 2008 года.}}
-
'''Файл презентации'''
+
'''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]'''
== План-конспект лекции ==
== План-конспект лекции ==
Строка 23: Строка 23:
Методы классификации (минутный обзор).
Методы классификации (минутный обзор).
-
Дискретно-логические методы классификации.
+
Логические методы классификации.
-
Понятие закономерности.
+
Требования интерпретируемости, информативности и покрытия.
-
Требование интерпретируемости, конъюнктивные закономерности.
+
Критерии закономерности и неслучайности.
Критерии закономерности и неслучайности.
-
Методы поиска логических закономерностей (rule induction).
+
Методы поиска логических закономерностей в форме конъюнкций (rule induction).
Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
-
Схожая задача: анализ рыночных корзин.
+
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
-
Методы поиска ассоциативных правил.
+
-
Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.
+
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска.
 +
Контрольная выборка, нечеткие правила.
-
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
+
'''Ссылки:'''
 +
# ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999.
 +
 
 +
Схожая задача: анализ рыночных корзин (market basket analysis).
 +
Методы поиска ассоциативных правил (association rule induction).
'''Ссылки:'''
'''Ссылки:'''
-
#
+
# ''Toivonen H.'' [http://citeseer.ist.psu.edu/toivonen96sampling.html Sampling large databases for association rules] // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
=== Прогнозирование временных рядов ===
=== Прогнозирование временных рядов ===
Строка 50: Строка 53:
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
 +
 +
Прогнозирование плотности распределения (density forecast).
'''Ссылки:'''
'''Ссылки:'''
-
#
+
# ''Yong Bao, Tae-Hwy Lee, Burak Saltoğlu'' [http://www.faculty.ucr.edu/~taelee/paper/BaoLeeSaltoglu_KLIC.pdf Comparing Density Forecast Models], 2006.
 +
# ''Stephen G. Hall, James Mitchell'' [http://www.niesr.ac.uk/pubs/dps/dp249.pdf Density Forecast Combination]. 2004.
=== Анализ клиентских сред ===
=== Анализ клиентских сред ===
Строка 69: Строка 75:
'''Ссылки:'''
'''Ссылки:'''
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]
 +
# [http://ict.ewi.tudelft.nl/~jun/CollaborativeFiltering.html Collaborative Filtering Resources] — софт, данные, статьи по CF.
=== Анализ текстов ===
=== Анализ текстов ===
Строка 84: Строка 91:
== Темы рефератов ==
== Темы рефератов ==
{{tip|
{{tip|
-
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
+
Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):
 +
* [http://www.google.ru Google]
 +
* [http://citeseer.ist.psu.edu CiteSeer]
 +
 
 +
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''.
 +
{{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>.
 +
 
 +
'''Не принимаются рефераты''', написанные по материалам наших сайтов:
 +
* [http://www.forecsys.ru Форексис],
 +
* [http://www.MachineLearning.ru www.MachineLearning.ru],
 +
* [http://www.antiplagiat.ru Антиплагиат.Ру],
 +
* [http://www.ccas.ru/voron домашняя страница лектора]
 +
 
 +
'''Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.'''
}}
}}
-
# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
+
# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
-
# Оценивание вероятностей классов в логических алгоритмах классификации.
+
#* Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
-
# Обзор методов, применяемых для прогнозирования объёмов продаж.
+
#* Для чего и как используются оценки вероятности ухода?
 +
#* Как планируются маркетинговые акции на основе сделанных предсказаний?
 +
# Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
 +
#* Что ещё можно мета-обучать?
 +
#** Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
 +
#** Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
 +
# Методы индукции правил на сверхбольших выборках
 +
#* Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
 +
#* Делают ли самплинг по двум, трём и т.д. подвыборкам?
 +
#* Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
 +
# Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
 +
#* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
 +
#* Логит-анализ, пробит-анализ... что ещё?
 +
#* Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
 +
# Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
 +
#* Нейросеть не предлагать!
 +
#* Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
 +
#* Как учитываются взаимозависимости товаров при прогнозировании?
# Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
# Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
 +
#* Погода и её прогноз, фьючерсы, что ещё?
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
 +
#* Метод главных компонент, что ещё?
 +
# Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
 +
#* Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
 +
#* Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
# Обзор методов, применяемых для поиска заимствований.
# Обзор методов, применяемых для поиска заимствований.
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
 +
 +
{{Well|
 +
Зачёт можно получить на кафедре ММП двумя способами:
 +
* Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.
 +
* Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).
 +
}}
 +
 +
'''[[Служебная:EmailUser/Vokov|Задать вопрос лектору]]'''.

Текущая версия

Содержание

Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.

Файл презентации, 764 КБ

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Поиск закономерностей в сверхбольших данных. Самплинг (sampling).

Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.

Ссылки:

  1. J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.

Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).

Ссылки:

  1. Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Прогнозирование плотности распределения (density forecast).

Ссылки:

  1. Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
  2. Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

  1. Лидеры конкурса Netflix
  2. Collaborative Filtering Resources — софт, данные, статьи по CF.

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

  1. www.antiplagiat.ru
  2. Патент iParadigms
  3. Интернет-математика отчёты по конкурсам Яндекс.

Темы рефератов

Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):

Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. В теме письма укажите: Реферат ВМиК: Фамилия, группа, тема реферата.

Не принимаются рефераты, написанные по материалам наших сайтов:

Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.


  1. Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
    • Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
    • Для чего и как используются оценки вероятности ухода?
    • Как планируются маркетинговые акции на основе сделанных предсказаний?
  2. Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
    • Что ещё можно мета-обучать?
      • Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
      • Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
  3. Методы индукции правил на сверхбольших выборках
    • Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
    • Делают ли самплинг по двум, трём и т.д. подвыборкам?
    • Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
  4. Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
    • Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
    • Логит-анализ, пробит-анализ... что ещё?
    • Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
  5. Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
    • Нейросеть не предлагать!
    • Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
    • Как учитываются взаимозависимости товаров при прогнозировании?
  6. Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
    • Погода и её прогноз, фьючерсы, что ещё?
  7. Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
    • Метод главных компонент, что ещё?
  8. Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
    • Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
    • Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
  9. Обзор методов, применяемых для поиска заимствований.
  10. Обзор методов, применяемых для оценивания сходства (релевантности) текстов.


Зачёт можно получить на кафедре ММП двумя способами:
  • Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.
  • Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).


Задать вопрос лектору.

Личные инструменты