Участник:Vlyalin
Материал из MachineLearning.
(→Отчеты о научно-исследовательской работе) |
(→Отчеты о научно-исследовательской работе) |
||
(3 промежуточные версии не показаны) | |||
Строка 14: | Строка 14: | ||
В работе рассматривается возможность контролируемой генерации текста с заданными параметрами. На данном этапе работы исследуется применение вариационного автокодировщика (VAE) к текстовой информации. Вариационный автокодировщик может рассматриваться как метод байесовской регуляризации с введением ограничений на латентное пространство нейронной сети (на выходе из кодировщика). С помощью введения дополнительных дискретных размерностей в латентное пространство и частичного обучения можно получить возможность управлять грамматическим временем (grammar tense) и сентиментом предложения (Zhiting Hu et. al., 2017). В работе планируется экспериментальное исследование возможности управления другими признаками и другие возможные расширения данной модели. | В работе рассматривается возможность контролируемой генерации текста с заданными параметрами. На данном этапе работы исследуется применение вариационного автокодировщика (VAE) к текстовой информации. Вариационный автокодировщик может рассматриваться как метод байесовской регуляризации с введением ограничений на латентное пространство нейронной сети (на выходе из кодировщика). С помощью введения дополнительных дискретных размерностей в латентное пространство и частичного обучения можно получить возможность управлять грамматическим временем (grammar tense) и сентиментом предложения (Zhiting Hu et. al., 2017). В работе планируется экспериментальное исследование возможности управления другими признаками и другие возможные расширения данной модели. | ||
+ | |||
+ | === Весна 2018, 10 семестр === | ||
+ | ====Классификация зашумлённого текста==== | ||
+ | |||
+ | В работе были исследованы методы нейросетевой классификации текста, устойчивые к шуму (опечаткам). На корпусах IMDB и Russian Twitter Sentiment Analysis Dataset были сравнены следующие методы: | ||
+ | |||
+ | * FastText-embedding + GRU | ||
+ | * Character-level CNN | ||
+ | * Иерархическая модель CharCNN-WordRNN, аналогичная модели в Character-Aware Neural Language Models (Yoon Kim et. al, 2015) | ||
+ | * CharCNN-WordRNN с механизмом внимания (attention) | ||
+ | |||
+ | По результатам работы была написана статья "What Did You Say? On Classification of Noisy Texts", Valentin Malykh and Vladislav Lyalin и подана на ревью на конференцию RCAI2018. | ||
+ | |||
+ | === Осень 2018, 11 семестр === | ||
+ | ====Распознавание именованных сущностей в зашумлённых текстах==== | ||
+ | |||
+ | В работе были исследованы методы нейросетевого распознавания сущностей, устойчивые к шуму (опечаткам). | ||
+ | |||
+ | Опубликована статья Valentin Malykh, Vladislav Lyalin, “Named Entity Recognition in Noisy Domains”, IC-AIAI 2018 |
Текущая версия
Лялин Владислав Андреевич
МФТИ, ФУПМ
Кафедра Интеллектуальные системы Направление Интеллектуальный анализ данных
Mailto lyalin@phystech.edu
Содержание |
Отчеты о научно-исследовательской работе
Осень 2017, 9 семестр
Генерация текста с введением контролируемых категориальных признаков
В работе рассматривается возможность контролируемой генерации текста с заданными параметрами. На данном этапе работы исследуется применение вариационного автокодировщика (VAE) к текстовой информации. Вариационный автокодировщик может рассматриваться как метод байесовской регуляризации с введением ограничений на латентное пространство нейронной сети (на выходе из кодировщика). С помощью введения дополнительных дискретных размерностей в латентное пространство и частичного обучения можно получить возможность управлять грамматическим временем (grammar tense) и сентиментом предложения (Zhiting Hu et. al., 2017). В работе планируется экспериментальное исследование возможности управления другими признаками и другие возможные расширения данной модели.
Весна 2018, 10 семестр
Классификация зашумлённого текста
В работе были исследованы методы нейросетевой классификации текста, устойчивые к шуму (опечаткам). На корпусах IMDB и Russian Twitter Sentiment Analysis Dataset были сравнены следующие методы:
* FastText-embedding + GRU * Character-level CNN * Иерархическая модель CharCNN-WordRNN, аналогичная модели в Character-Aware Neural Language Models (Yoon Kim et. al, 2015) * CharCNN-WordRNN с механизмом внимания (attention)
По результатам работы была написана статья "What Did You Say? On Classification of Noisy Texts", Valentin Malykh and Vladislav Lyalin и подана на ревью на конференцию RCAI2018.
Осень 2018, 11 семестр
Распознавание именованных сущностей в зашумлённых текстах
В работе были исследованы методы нейросетевого распознавания сущностей, устойчивые к шуму (опечаткам).
Опубликована статья Valentin Malykh, Vladislav Lyalin, “Named Entity Recognition in Noisy Domains”, IC-AIAI 2018