Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
м |
м |
||
(15 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | Лекция | + | Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»''' |
- | {{S|28 апреля 2008 года.}} | + | студентам {{S|5 курса ВМиК МГУ}}, {{S|28 апреля 2008 года.}} |
+ | |||
+ | '''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]''' | ||
== План-конспект лекции == | == План-конспект лекции == | ||
Строка 10: | Строка 12: | ||
Типы задач: классификация, регрессия, прогнозирование. | Типы задач: классификация, регрессия, прогнозирование. | ||
- | Свойства реальных данных: | + | Свойства реальных данных: |
+ | многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём. | ||
=== Задачи и методы классификации === | === Задачи и методы классификации === | ||
Строка 20: | Строка 23: | ||
Методы классификации (минутный обзор). | Методы классификации (минутный обзор). | ||
- | + | Логические методы классификации. | |
- | + | Требования интерпретируемости, информативности и покрытия. | |
- | + | ||
Критерии закономерности и неслучайности. | Критерии закономерности и неслучайности. | ||
- | Методы поиска логических закономерностей (rule induction). | + | Методы поиска логических закономерностей в форме конъюнкций (rule induction). |
Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы. | Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы. | ||
- | + | Поиск закономерностей в сверхбольших данных. Самплинг (sampling). | |
- | + | ||
- | + | Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. | |
+ | Контрольная выборка, нечеткие правила. | ||
- | + | '''Ссылки:''' | |
+ | # ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods]. Advances in Large Margin Classiers, MIT Press, 1999. | ||
+ | |||
+ | Схожая задача: анализ рыночных корзин (market basket analysis). | ||
+ | Методы поиска ассоциативных правил (association rule induction). | ||
'''Ссылки:''' | '''Ссылки:''' | ||
- | # | + | # ''Toivonen H.'' [http://citeseer.ist.psu.edu/toivonen96sampling.html Sampling large databases for association rules] // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145. |
=== Прогнозирование временных рядов === | === Прогнозирование временных рядов === | ||
Строка 47: | Строка 53: | ||
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен? | Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен? | ||
+ | |||
+ | Прогнозирование плотности распределения (density forecast). | ||
'''Ссылки:''' | '''Ссылки:''' | ||
- | # | + | # ''Yong Bao, Tae-Hwy Lee, Burak Saltoğlu'' [http://www.faculty.ucr.edu/~taelee/paper/BaoLeeSaltoglu_KLIC.pdf Comparing Density Forecast Models], 2006. |
+ | # ''Stephen G. Hall, James Mitchell'' [http://www.niesr.ac.uk/pubs/dps/dp249.pdf Density Forecast Combination]. 2004. | ||
=== Анализ клиентских сред === | === Анализ клиентских сред === | ||
Строка 66: | Строка 75: | ||
'''Ссылки:''' | '''Ссылки:''' | ||
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix] | # [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix] | ||
+ | # [http://ict.ewi.tudelft.nl/~jun/CollaborativeFiltering.html Collaborative Filtering Resources] — софт, данные, статьи по CF. | ||
=== Анализ текстов === | === Анализ текстов === | ||
Строка 75: | Строка 85: | ||
'''Ссылки:''' | '''Ссылки:''' | ||
- | # | + | # [http://www.antiplagiat.ru/ www.antiplagiat.ru] |
+ | # [http://www.google.com/patents?id=DPIVAAAAEBAJ&dq=iparadigms Патент iParadigms] | ||
+ | # [http://company.yandex.ru/grant/index.xml Интернет-математика] отчёты по конкурсам Яндекс. | ||
- | == Темы рефератов | + | == Темы рефератов == |
+ | {{tip| | ||
+ | Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации): | ||
+ | * [http://www.google.ru Google] | ||
+ | * [http://citeseer.ist.psu.edu CiteSeer] | ||
- | # | + | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''. |
- | # Оценивание вероятностей классов в логических алгоритмах классификации. | + | {{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>. |
- | # Обзор методов, применяемых для прогнозирования объёмов продаж. | + | |
+ | '''Не принимаются рефераты''', написанные по материалам наших сайтов: | ||
+ | * [http://www.forecsys.ru Форексис], | ||
+ | * [http://www.MachineLearning.ru www.MachineLearning.ru], | ||
+ | * [http://www.antiplagiat.ru Антиплагиат.Ру], | ||
+ | * [http://www.ccas.ru/voron домашняя страница лектора] | ||
+ | |||
+ | '''Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.''' | ||
+ | }} | ||
+ | # Методы классификации, применяемые для предсказания ухода клиентов (churn prediction). | ||
+ | #* Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему? | ||
+ | #* Для чего и как используются оценки вероятности ухода? | ||
+ | #* Как планируются маркетинговые акции на основе сделанных предсказаний? | ||
+ | # Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил. | ||
+ | #* Что ещё можно мета-обучать? | ||
+ | #** Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п. | ||
+ | #** Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении? | ||
+ | # Методы индукции правил на сверхбольших выборках | ||
+ | #* Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга? | ||
+ | #* Делают ли самплинг по двум, трём и т.д. подвыборкам? | ||
+ | #* Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил. | ||
+ | # Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration). | ||
+ | #* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать! | ||
+ | #* Логит-анализ, пробит-анализ... что ещё? | ||
+ | #* Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)? | ||
+ | # Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast). | ||
+ | #* Нейросеть не предлагать! | ||
+ | #* Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast). | ||
+ | #* Как учитываются взаимозависимости товаров при прогнозировании? | ||
+ | # Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии. | ||
+ | #* Погода и её прогноз, фьючерсы, что ещё? | ||
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | # Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | ||
- | # Обзор методов, применяемых для поиска заимствований. | + | #* Метод главных компонент, что ещё? |
+ | # Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации. | ||
+ | #* Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering. | ||
+ | #* Предупреждение: скрытая информация не обязательно называется «тематическими профилями» | ||
+ | # Обзор методов, применяемых для поиска заимствований. | ||
+ | # Обзор методов, применяемых для оценивания сходства (релевантности) текстов. | ||
+ | |||
+ | {{Well| | ||
+ | Зачёт можно получить на кафедре ММП двумя способами: | ||
+ | * Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары. | ||
+ | * Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам). | ||
+ | }} | ||
- | + | '''[[Служебная:EmailUser/Vokov|Задать вопрос лектору]]'''. |
Текущая версия
|
Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).
Ссылки:
- Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
- Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
- Collaborative Filtering Resources — софт, данные, статьи по CF.
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
- Патент iParadigms
- Интернет-математика отчёты по конкурсам Яндекс.
Темы рефератов
Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):
Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.
В теме письма укажите: Не принимаются рефераты, написанные по материалам наших сайтов: Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д. |
- Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
- Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
- Что ещё можно мета-обучать?
- Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
- Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
- Что ещё можно мета-обучать?
- Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
- Делают ли самплинг по двум, трём и т.д. подвыборкам?
- Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
- Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
- Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
- Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
- Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
- Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
- Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
- Обзор методов, применяемых для поиска заимствований.
- Обзор методов, применяемых для оценивания сходства (релевантности) текстов.