Участник:Celyh
Материал из MachineLearning.
(→Осень 2012, 7-й семестр) |
(→Отчеты о научно-исследовательской работе) |
||
Строка 42: | Строка 42: | ||
|страницы = 436-446 | |страницы = 436-446 | ||
}} | }} | ||
+ | === Весна 2013, 8-й семестр=== | ||
+ | '''Статистические критерии адекватности вероятностных тематических моделей коллекции текстовых документов''' | ||
+ | |||
+ | ''Работа посвящена построению критерия, проверяющего одно из основных предположений тематического моделирования - гипотезу условной независимости слов в теме от документа. Предлагаются два статистических теста: один основан на вычислении эмпирических распределений статистики хи-квадрат путём сэмплирования, а второй - на множественном использовании точного теста Фишера. Рассматривается применение предложенных тестов для проверки адекватности вероятностных тематических моделей.'' |
Версия 18:11, 13 сентября 2013
МФТИ, ФУПМ
Кафедра "Интеллектуальные системы"
Направление "Интеллектуальный анализ данных"
Mailto: Celyh@inbox.ru
Отчеты о научно-исследовательской работе
Весна 2012, 6-й семестр
Многомерные адаптивные регрессионные сплайны
В работе рассматриваются многомерные адаптивные регрессионные сплайны. Метод позволяет получить модели, дающие достаточно точную аппроксимацию, даже в тех случаях, когда связи между предикторными и зависимыми переменными имеют немонотонный характер и сложны для приближения параметрическими моделями. Экспериментально исследуется зависимость ошибки аппроксимации от сложности модели. Для иллюстрации работы метода используются тестовые данные, данные ЭКГ и данные из области финансовой математики.
Публикация
- Целых В.Р. Многомерные адаптивные регрессионные сплайны // Машинное обучение и анализ данных. — 2012. — № 3. — С. 272-278. — ISSN 2223-3792.
Осень 2012, 7-й семестр
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании
Критерий согласия Пирсона неприменим к сильно разреженным распределениям, так как в этих случаях распределение статистики плохо описывается асимптотическим законом хи-квадрат, зависит от длины выборки и вида исходного распределения. В данной работе предлагаются статистические критерии, основанные на сэмплировании Монте-Карло, и рассматривается их применение в задачах анализа текстов, в частности, для проверки гипотезы условной независимости при построении и оценивании вероятностных тематических моделей.
Публикация
- Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // Машинное обучение и анализ данных. — 2012. — № 4. — С. 436-446.
Весна 2013, 8-й семестр
Статистические критерии адекватности вероятностных тематических моделей коллекции текстовых документов
Работа посвящена построению критерия, проверяющего одно из основных предположений тематического моделирования - гипотезу условной независимости слов в теме от документа. Предлагаются два статистических теста: один основан на вычислении эмпирических распределений статистики хи-квадрат путём сэмплирования, а второй - на множественном использовании точного теста Фишера. Рассматривается применение предложенных тестов для проверки адекватности вероятностных тематических моделей.