Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

< Участник:Vokov(Различия между версиями)

Текущая версия

Содержание

1 План-конспект лекции
2 Темы рефератов

Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.

Файл презентации, 764 КБ

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Поиск закономерностей в сверхбольших данных. Самплинг (sampling).

Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.

Ссылки:

J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.

Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).

Ссылки:

Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Прогнозирование плотности распределения (density forecast).

Ссылки:

Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

Лидеры конкурса Netflix
Collaborative Filtering Resources — софт, данные, статьи по CF.

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

www.antiplagiat.ru
Патент iParadigms
Интернет-математика отчёты по конкурсам Яндекс.

Темы рефератов

Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):

Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. В теме письма укажите: Реферат ВМиК: Фамилия, группа, тема реферата.

Не принимаются рефераты, написанные по материалам наших сайтов:

Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.

Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
- Что ещё можно мета-обучать?
  - Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
  - Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
- Делают ли самплинг по двум, трём и т.д. подвыборкам?
- Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
- Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
Обзор методов, применяемых для поиска заимствований.
Обзор методов, применяемых для оценивания сходства (релевантности) текстов.

Зачёт можно получить на кафедре ММП двумя способами:

Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.
Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).

Задать вопрос лектору.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Vokov/%D0%9D%D0%B5%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D1%8B%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%29»

@@ Строка 1: / Строка 1: @@
 {{TOCright}}
-Лекция читается в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}.
+Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»'''
-{{S|28 апреля 2008 года.}}
+студентам {{S|5 курса ВМиК МГУ}}, {{S|28 апреля 2008 года.}}
+'''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]'''
 == План-конспект лекции ==
@@ Строка 10: / Строка 12: @@
 Типы задач: классификация, регрессия, прогнозирование.
-Свойства реальных данных: многомерные, неполные, неточные, противоречивые, разнородные.
+Свойства реальных данных:
+многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
 === Задачи и методы классификации ===
@@ Строка 20: / Строка 23: @@
 Методы классификации (минутный обзор).
-Дискретно-логические методы классификации.
+Логические методы классификации.
-Понятие закономерности.
+Требования интерпретируемости, информативности и покрытия.
-Требование интерпретируемости, конъюнктивные закономерности.
 Критерии закономерности и неслучайности.
-Методы поиска логических закономерностей (rule induction).
+Методы поиска логических закономерностей в форме конъюнкций (rule induction).
 Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
-Схожая задача: анализ рыночных корзин.
+Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
-Методы поиска ассоциативных правил.
-Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.
+Оценивание вероятности (probabilistic output, probabilistic calibration) и риска.
+Контрольная выборка, нечеткие правила.
-Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
+'''Ссылки:'''
+# ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods].  Advances in Large Margin Classiers, MIT Press, 1999.
+Схожая задача: анализ рыночных корзин (market basket analysis).
+Методы поиска ассоциативных правил (association rule induction).
 '''Ссылки:'''
-#
+# ''Toivonen H.'' [http://citeseer.ist.psu.edu/toivonen96sampling.html Sampling large databases for association rules] // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
 === Прогнозирование временных рядов ===
@@ Строка 47: / Строка 53: @@
 Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
+Прогнозирование плотности распределения (density forecast).
 '''Ссылки:'''
-#
+# ''Yong Bao, Tae-Hwy Lee, Burak Saltoğlu'' [http://www.faculty.ucr.edu/~taelee/paper/BaoLeeSaltoglu_KLIC.pdf Comparing Density Forecast Models], 2006.
+# ''Stephen G. Hall, James Mitchell'' [http://www.niesr.ac.uk/pubs/dps/dp249.pdf Density Forecast Combination]. 2004.
 === Анализ клиентских сред ===
@@ Строка 66: / Строка 75: @@
 '''Ссылки:'''
 # [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]
+# [http://ict.ewi.tudelft.nl/~jun/CollaborativeFiltering.html Collaborative Filtering Resources] — софт, данные, статьи по CF.
 === Анализ текстов ===
@@ Строка 75: / Строка 85: @@
 '''Ссылки:'''
-#
+# [http://www.antiplagiat.ru/ www.antiplagiat.ru]
+# [http://www.google.com/patents?id=DPIVAAAAEBAJ&dq=iparadigms Патент iParadigms]
+# [http://company.yandex.ru/grant/index.xml Интернет-математика] отчёты по конкурсам Яндекс.
-== Темы рефератов и литература ==
+== Темы рефератов ==
+{{tip|
+Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):
+* [http://www.google.ru Google]
+* [http://citeseer.ist.psu.edu CiteSeer]
-# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
+Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''.
-# Оценивание вероятностей классов в логических алгоритмах классификации.
+{{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>.
-# Обзор методов, применяемых для прогнозирования объёмов продаж.
+'''Не принимаются рефераты''', написанные по материалам наших сайтов:
+* [http://www.forecsys.ru Форексис],
+* [http://www.MachineLearning.ru www.MachineLearning.ru],
+* [http://www.antiplagiat.ru Антиплагиат.Ру],
+* [http://www.ccas.ru/voron домашняя страница лектора]
+'''Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.'''
+}}
+# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
+#* Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
+#* Для чего и как используются оценки вероятности ухода?
+#* Как планируются маркетинговые акции на основе сделанных предсказаний?
+# Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
+#* Что ещё можно мета-обучать?
+#** Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
+#** Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
+# Методы индукции правил на сверхбольших выборках
+#* Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
+#* Делают ли самплинг по двум, трём и т.д. подвыборкам?
+#* Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
+# Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
+#* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
+#* Логит-анализ, пробит-анализ... что ещё?
+#* Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
+# Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
+#* Нейросеть не предлагать!
+#* Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
+#* Как учитываются взаимозависимости товаров при прогнозировании?
+# Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
+#* Погода и её прогноз, фьючерсы, что ещё?
 # Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
-# Обзор методов, применяемых для поиска заимствований.
+#* Метод главных компонент, что ещё?
+# Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
+#* Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
+#* Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
+# Обзор методов, применяемых для поиска заимствований.
+# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
+{{Well|
+Зачёт можно получить на кафедре ММП двумя способами:
+* Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.
+* Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).
+}}
-Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде '''и присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
+'''[[Служебная:EmailUser/Vokov|Задать вопрос лектору]]'''.

Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

Текущая версия

Содержание

План-конспект лекции

Задачи обучения по прецедентам

Задачи и методы классификации

Прогнозирование временных рядов

Анализ клиентских сред

Анализ текстов

Темы рефератов

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты