Участник:Celyh

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Осень 2012, 7-й семестр)
(Отчеты о научно-исследовательской работе)
Строка 42: Строка 42:
|страницы = 436-446
|страницы = 436-446
}}
}}
 +
=== Весна 2013, 8-й семестр===
 +
'''Статистические критерии адекватности вероятностных тематических моделей коллекции текстовых документов'''
 +
 +
''Работа посвящена построению критерия, проверяющего одно из основных предположений тематического моделирования - гипотезу условной независимости слов в теме от документа. Предлагаются два статистических теста: один основан на вычислении эмпирических распределений статистики хи-квадрат путём сэмплирования, а второй - на множественном использовании точного теста Фишера. Рассматривается применение предложенных тестов для проверки адекватности вероятностных тематических моделей.''

Версия 18:11, 13 сентября 2013

МФТИ, ФУПМ

Кафедра "Интеллектуальные системы"

Направление "Интеллектуальный анализ данных"

Mailto: Celyh@inbox.ru

Отчеты о научно-исследовательской работе

Весна 2012, 6-й семестр

Многомерные адаптивные регрессионные сплайны

В работе рассматриваются многомерные адаптивные регрессионные сплайны. Метод позволяет получить модели, дающие достаточно точную аппроксимацию, даже в тех случаях, когда связи между предикторными и зависимыми переменными имеют немонотонный характер и сложны для приближения параметрическими моделями. Экспериментально исследуется зависимость ошибки аппроксимации от сложности модели. Для иллюстрации работы метода используются тестовые данные, данные ЭКГ и данные из области финансовой математики.

Публикация

Осень 2012, 7-й семестр

Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании

Критерий согласия Пирсона неприменим к сильно разреженным распределениям, так как в этих случаях распределение статистики плохо описывается асимптотическим законом хи-квадрат, зависит от длины выборки и вида исходного распределения. В данной работе предлагаются статистические критерии, основанные на сэмплировании Монте-Карло, и рассматривается их применение в задачах анализа текстов, в частности, для проверки гипотезы условной независимости при построении и оценивании вероятностных тематических моделей.

Публикация

  • Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // Машинное обучение и анализ данных. — 2012. — № 4. — С. 436-446.

Весна 2013, 8-й семестр

Статистические критерии адекватности вероятностных тематических моделей коллекции текстовых документов

Работа посвящена построению критерия, проверяющего одно из основных предположений тематического моделирования - гипотезу условной независимости слов в теме от документа. Предлагаются два статистических теста: один основан на вычислении эмпирических распределений статистики хи-квадрат путём сэмплирования, а второй - на множественном использовании точного теста Фишера. Рассматривается применение предложенных тестов для проверки адекватности вероятностных тематических моделей.

Личные инструменты