Участник:Ryskina
Материал из MachineLearning.
(→Отчеты о научно-исследовательской работе) |
(→Отчеты о научно-исследовательской работе) |
||
Строка 13: | Строка 13: | ||
'''Разметка библиографических записей с помощью логических алгоритмов''' | '''Разметка библиографических записей с помощью логических алгоритмов''' | ||
- | + | Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево. | |
'''Публикация''' | '''Публикация''' | ||
Строка 24: | Строка 24: | ||
'''Создание тематической модели на основе PLSA''' | '''Создание тематической модели на основе PLSA''' | ||
- | + | В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам. | |
- | По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль. | + | По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль. |
'''Публикация''' | '''Публикация''' | ||
- | ''Рыскина М. Н.'' Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013). | + | |
+ | ''Рыскина М. Н.'' Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: [http://193.233.212.81/ mvr.jmlda.org] (дата обращения: 26.12.2013). | ||
'''Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей''' | '''Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей''' | ||
- | + | Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ. | |
- | Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента. | + | Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента. |
Версия 22:06, 30 декабря 2013
Рыскина М.Н.
МФТИ, ФУПМ, 074
Кафедра "Интеллектуальные системы"
Mailto: m.ryskina@gmail.com
Отчеты о научно-исследовательской работе
Весна 2013, 6-й семестр
Разметка библиографических записей с помощью логических алгоритмов
Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.
Публикация
Рыскина М.Н. Разметка библиографических записей с помощью логических алгоритмов // Machinelearning.ru, 2013.
Осень 2013, 7-й семестр
Создание тематической модели на основе PLSA
В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам. По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.
Публикация
Рыскина М. Н. Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).
Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей
Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ. Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.