Участник:Angriff
Материал из MachineLearning.
(→Отчеты о научно-исследовательской работе) |
(→Отчеты о научно-исследовательской работе) |
||
Строка 106: | Строка 106: | ||
|название = Применение методов машинного обучения к выделению временных выражений в русскоязычных текстах | |название = Применение методов машинного обучения к выделению временных выражений в русскоязычных текстах | ||
|год = 2013 | |год = 2013 | ||
+ | }} | ||
+ | |||
+ | === 2013/2014 учебный год === | ||
+ | '''Conditional Random Field in Segmentation and Noun Phrase Inclination Tasks for Russian''' | ||
+ | |||
+ | ''We propose solutions of several NLP problems for Russian making use of the conditional random fields (CRF) framework, including: shallow parsing (chunking), temporal expressions extraction and noun phrase inflection. Each of the three problems are important in speech generation, data mining and spoken dialogs systems design. The purpose of shallow parsing is to extract from the text syntactically related word forms (e.g. noun phrases) without full parsing. It may be useful in data mining applications. Temporal expressions extraction is important for natural language understanding modules of spoken dialog systems. Usually rule-based methods are used to address this problem. Noun phrase inflection is needed for speech generation modules. The main problem is to detect word forms for inflection. For all three problems statistical approach was taken. We use simple version of CRF named linear-chain CRF. In shallow parsing and time expressions extraction state-of-the-art results were achieved. In noun phrase inflection, the level of F1-measure exceeded 95.'' | ||
+ | |||
+ | '''Conditional random field for morphological disambiguation in Russian''' | ||
+ | |||
+ | ''We consider the problem of morphological disambiguation in Russian using statistical methods; specifically, we apply conditional random field (CRF). We propose a new modified model of linear chain CRF, which demonstrates results close to the state-of-the-art. We also propose a new statistical approach to text normalization problem using CRF. Namely, we solve the problem of normalization of numerals written as digits. Our approach allows for the consideration of both cardinal and ordinal numbers. In order to train and test our models we used Russian text corpora. For morphological disambiguation, we used data from OpenCorpora and the SynTagRus linguistic corpus. For number normalization we used the Russian National Corpora (RusCorpora). A brief overview of the CRF model is given, followed by a detailed description of the applied algorithm, assumptions on the training and test set, and a description of features for each particular issue.'' | ||
+ | |||
+ | '''Подготовленные публикации''' | ||
+ | *{{Статья | ||
+ | |автор = Kudinov M.S., Romanenko A.A., Piontkovskaja I.I. | ||
+ | |название = Conditional random field in segmentation and noun phrase inclination tasks for Russian | ||
+ | |год = 2014 | ||
+ | |журнал = Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.288-297 | ||
+ | }} | ||
+ | *{{Статья | ||
+ | |автор = Muzychka S.A., Romanenko A.A., Piontkovskaja I.I. | ||
+ | |название = Conditional random field for morphological disambiguation in Russian | ||
+ | |год = 2014 | ||
+ | |журнал = Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.439-448. | ||
+ | }} | ||
+ | |||
+ | '''Доклад на научной конференции''' | ||
+ | *{{Статья | ||
+ | |автор = Kudinov M.S., Romanenko A.A., Piontkovskaja I.I. | ||
+ | |название = Conditional random field in segmentation and noun phrase inclination tasks for Russian | ||
+ | |журнал = International Conference of Computational Linguistics «Dialogue», Bekasovo | ||
+ | |год = 2014 | ||
+ | }} | ||
+ | *{{Статья | ||
+ | |автор = Muzychka S.A., Romanenko A.A., Piontkovskaja I.I. | ||
+ | |название = Conditional random field for morphological disambiguation in Russian | ||
+ | |журнал = International Conference of Computational Linguistics «Dialogue», Bekasovo | ||
+ | |год = 2014 | ||
+ | }} | ||
+ | |||
+ | === 2015/2016 учебный год === | ||
+ | '''Hybrid Language Model based on Recurrent Neural Network and Probabilistic Topic Modeling''' | ||
+ | |||
+ | ''A language model based on features extracted from a recurrent neural network language model and semantic embedding of the left context of the current word based on probabilistic semantic analysis (PLSA) is developed. To calculate such embedding, the context is considered as a document. The effect of vanishing gradients in a recurrent neural network is reduced by this method. The experiment has shown that adding topic-based features reduces perplexity by 10%.'' | ||
+ | |||
+ | '''Подготовленные публикации''' | ||
+ | *{{Статья | ||
+ | |автор = Kudinov M., Romanenko A. | ||
+ | |название = Hybrid Language Model based on Recurrent Neural Network and Probabilistic Topic Modeling | ||
+ | |год = 2016 | ||
+ | |журнал = Pattern Recognition and Image Analysis, готовиться к публикации | ||
+ | |||
}} | }} |
Текущая версия
Романенко Александр
МФТИ, ФУПМ
Кафедра "Интеллектуальные системы"
Направление "Интеллектуальный анализ данных"
Mailto: angriff07@gmail.com
Отчеты о научно-исследовательской работе
Весна 2011, 6-й семестр
Выравнивание временных рядов: прогнозирование с использованием DTW
Временной ряд - это повсеместно встечающаяся форма представления данных во многих научных дисциплинах. Задача, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах. Предлагается классический алгоритм DTW и упоминаются его возможные модификации. В работе описывается алгоритм поиска в последовательности подпоследовательности, "больше всего похожей" на данную последовательность. Приведены результаты работы алгоритма.
Публикация
- Романенко А.А. Выравнивание временных рядов: прогнозирование с использованием DTW // Машинное обучение и анализ данных. — 2011. — № 1. — С. 77-85. — ISSN 2223-3792.
Осень 2011, 7-й семестр
Событийное моделирование и прогноз финансовых временных рядов
Финансовые временные ряды обычно сильно зашумлены и зависят от других временных рядов (курс доллара, пошлины на таможне, и т.д.). Но насколько сильна эта зависимость, какие факторы учитывать при их прогнозировании, однозначно определить непросто. В работе для прогнозирования поведения целевого ряда используется разметка временных рядов. Предлагается алгоритм порождения признаков из размеченных временных рядов и генетический алгоритм отбора признаков на размеченных временных рядах.
Публикации
- Романенко А.А. Событийное моделирование и прогноз финансовых временных рядов // Машинное обучение и анализ данных. — 2011. — № 2. — С. 236-243. — ISSN 2223-3792.
Гранты
- Президентская государственная академическая стипендия
Весна 2012, 8-й семестр
Кластеризация коллекции текстов
В работе предлагается метод кластеризации текстовой коллекции с помощью стандартных метрических алгоритмов, например, K-means. Для этого вводится функция расстояния между текстами, учитывающая "схожесть" лексики используемой в тексте. В работе также исследуется соответствие между введенным расстоянием на множестве реальных текстов и близостью тематик этих текстов. Возможность кластеризации и соответствие ее результатов с заранее известным распределением текстов по тематике исследована в вычислительном эксперименте на синтетической коллекции текстов.
Публикации
- Романенко А.А. Кластеризация коллекции текстов // Машинное обучение и анализ данных. — 2011. — № 3. — С. 305-311. — ISSN 2223-3792.
Гранты
- Президентская государственная академическая стипендия
Осень 2012, 9-й семестр
Определение границ дорожек печатных плат с~помощью одноклассового классификатора
Рассматривается задача определения границ дорожек печатных плат на изображениях. Решать задачу предлагается с помощью одноклассовой классификации. Для этого строится вероятностная модель описания множества граничных пикселей. Показывается, что эта модель является обобщением модели Такса, построенной из чисто эвристических предположений. Также предлагается использовать -регуляризацию признаков.
Планируемые публикации
- Будников Е.А., Романенко А.А. Определение границ дорожек печатных плат с~помощью одноклассового классификатора // Машинное обучение и анализ данных. — 2013.
Гранты
- Президентская государственная академическая стипендия
Осень 2013, 11-й семестр
Применение методов машинного обучения к выделению временных выражений в русскоязычных текстах
В работе рассматривается задача выделения выражений, имеющих временную окраску. Ставится формальная постановка задачи, приводится обзор методов решения задачи для английского, итальянского и китайского языков. Также описывается решения задачи для русского языка: описывается base-line алгоритм основанный на правилах, способ разметки обучающей выборки, а также методы машинного обучения, применяемые для решения задачи. Также приводятся результаты вычислительного экспериментов для этих алгоритмов.
Доклад на научной конференции
- Романенко А.А. Применение методов машинного обучения для выделения временных выражений в текстах на естественном языке // 56-я научная конференция МФТИ "МФТИ-56". — 2013.
Подготовленные публикации
- Романенко А.А. Применение методов машинного обучения к выделению временных выражений в русскоязычных текстах. — 2013.
2013/2014 учебный год
Conditional Random Field in Segmentation and Noun Phrase Inclination Tasks for Russian
We propose solutions of several NLP problems for Russian making use of the conditional random fields (CRF) framework, including: shallow parsing (chunking), temporal expressions extraction and noun phrase inflection. Each of the three problems are important in speech generation, data mining and spoken dialogs systems design. The purpose of shallow parsing is to extract from the text syntactically related word forms (e.g. noun phrases) without full parsing. It may be useful in data mining applications. Temporal expressions extraction is important for natural language understanding modules of spoken dialog systems. Usually rule-based methods are used to address this problem. Noun phrase inflection is needed for speech generation modules. The main problem is to detect word forms for inflection. For all three problems statistical approach was taken. We use simple version of CRF named linear-chain CRF. In shallow parsing and time expressions extraction state-of-the-art results were achieved. In noun phrase inflection, the level of F1-measure exceeded 95.
Conditional random field for morphological disambiguation in Russian
We consider the problem of morphological disambiguation in Russian using statistical methods; specifically, we apply conditional random field (CRF). We propose a new modified model of linear chain CRF, which demonstrates results close to the state-of-the-art. We also propose a new statistical approach to text normalization problem using CRF. Namely, we solve the problem of normalization of numerals written as digits. Our approach allows for the consideration of both cardinal and ordinal numbers. In order to train and test our models we used Russian text corpora. For morphological disambiguation, we used data from OpenCorpora and the SynTagRus linguistic corpus. For number normalization we used the Russian National Corpora (RusCorpora). A brief overview of the CRF model is given, followed by a detailed description of the applied algorithm, assumptions on the training and test set, and a description of features for each particular issue.
Подготовленные публикации
- Kudinov M.S., Romanenko A.A., Piontkovskaja I.I. Conditional random field in segmentation and noun phrase inclination tasks for Russian // Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.288-297. — 2014.
- Muzychka S.A., Romanenko A.A., Piontkovskaja I.I. Conditional random field for morphological disambiguation in Russian // Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.439-448.. — 2014.
Доклад на научной конференции
- Kudinov M.S., Romanenko A.A., Piontkovskaja I.I. Conditional random field in segmentation and noun phrase inclination tasks for Russian // International Conference of Computational Linguistics «Dialogue», Bekasovo. — 2014.
- Muzychka S.A., Romanenko A.A., Piontkovskaja I.I. Conditional random field for morphological disambiguation in Russian // International Conference of Computational Linguistics «Dialogue», Bekasovo. — 2014.
2015/2016 учебный год
Hybrid Language Model based on Recurrent Neural Network and Probabilistic Topic Modeling
A language model based on features extracted from a recurrent neural network language model and semantic embedding of the left context of the current word based on probabilistic semantic analysis (PLSA) is developed. To calculate such embedding, the context is considered as a document. The effect of vanishing gradients in a recurrent neural network is reduced by this method. The experiment has shown that adding topic-based features reduces perplexity by 10%.
Подготовленные публикации
- Kudinov M., Romanenko A. Hybrid Language Model based on Recurrent Neural Network and Probabilistic Topic Modeling // Pattern Recognition and Image Analysis, готовиться к публикации. — 2016.
Категории: Романенко А.А. (публикации) | 2011 (публикации) | Машинное обучение и анализ данных (статьи) | Будников Е.А., Романенко А.А. (публикации) | 2013 (публикации) | 56-я научная конференция МФТИ "МФТИ-56" (статьи) | Kudinov M.S., Romanenko A.A., Piontkovskaja I.I. (публикации) | 2014 (публикации) | Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.288-297 (статьи) | Muzychka S.A., Romanenko A.A., Piontkovskaja I.I. (публикации) | Computational Linguistics and Intellectual Technologies (International Conference Dialogue 2014 Proceedings) — Issue 13(20) — 2014 — pp.439-448. (статьи) | International Conference of Computational Linguistics «Dialogue», Bekasovo (статьи) | Kudinov M., Romanenko A. (публикации) | 2016 (публикации) | Pattern Recognition and Image Analysis, готовиться к публикации (статьи)