Участник:Ryskina

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Отчеты о научно-исследовательской работе)
(Отчеты о научно-исследовательской работе)
Строка 13: Строка 13:
'''Разметка библиографических записей с помощью логических алгоритмов'''
'''Разметка библиографических записей с помощью логических алгоритмов'''
-
''Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.''
+
Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.
'''Публикация'''
'''Публикация'''
Строка 24: Строка 24:
'''Создание тематической модели на основе PLSA'''
'''Создание тематической модели на основе PLSA'''
-
''В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам.
+
В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам.
-
По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.''
+
По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.
'''Публикация'''
'''Публикация'''
-
''Рыскина М. Н.'' Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).
+
 
 +
''Рыскина М. Н.'' Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: [http://193.233.212.81/ mvr.jmlda.org] (дата обращения: 26.12.2013).
'''Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей'''
'''Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей'''
-
''Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость.Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ.
+
Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ.
-
Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.''
+
Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.

Версия 22:06, 30 декабря 2013

Рыскина М.Н.

МФТИ, ФУПМ, 074

Кафедра "Интеллектуальные системы"

Mailto: m.ryskina@gmail.com

Отчеты о научно-исследовательской работе

Весна 2013, 6-й семестр

Разметка библиографических записей с помощью логических алгоритмов

Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.

Публикация

Рыскина М.Н. Разметка библиографических записей с помощью логических алгоритмов // Machinelearning.ru, 2013.

Осень 2013, 7-й семестр

Создание тематической модели на основе PLSA

В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам. По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.

Публикация

Рыскина М. Н. Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).

Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей

Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ. Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.

Личные инструменты