Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Категория:Учебные курсы {{TOCright}} Курс посвящен методам анализа текстов на основе статистики и машин...)
(Результаты проверки)
 
(68 промежуточных версий не показаны.)
Строка 10: Строка 10:
==== Контакты ====
==== Контакты ====
-
* Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
+
* Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
* Лектор: [[Участник:Victor Kitov|Виктор Китов]]
* Лектор: [[Участник:Victor Kitov|Виктор Китов]]
* Семинарист: [[Участник:Mapishev|Мурат Апишев]]
* Семинарист: [[Участник:Mapishev|Мурат Апишев]]
-
* Почта курса: '''nlp.msu@gmail.com'''.
+
* Почта курса (семинары, задания): '''nlp.msu@gmail.com'''.
* [https://docs.google.com/forms/d/e/1FAIpQLScfY3ezDU9njSZ32H2R5MA-jrRxkV_pMJEnPu6XIcgO8dcxVA/viewform?usp=pp_url&entry.548855177 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
* [https://docs.google.com/forms/d/e/1FAIpQLScfY3ezDU9njSZ32H2R5MA-jrRxkV_pMJEnPu6XIcgO8dcxVA/viewform?usp=pp_url&entry.548855177 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
 +
== Экзамен ==
 +
Экзамен пройдет 13 июня в ауд. 579.
-
== Программа курса ==
+
[https://yadi.sk/i/mCGl_M7e3Wm3rg Билеты к экзамену]
-
* Предварительная обработка текста
+
== Лекции ==
-
** Токенизация, лемматизация, выделение коллокаций, регулярные выражения
+
-
* Модели для работы с последовательностями
+
-
** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
+
-
** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
+
-
* Синтаксический анализ
+
-
* Классификация текстов
+
-
* Вероятностные модели
+
-
** Модель языка, N-граммы, сглаживание, концепция шумного канала
+
-
** Применение в задачах исправления опечаток и машинного перевода
+
-
* Глубокие нейронные сети в анализе текстов.
+
-
* Тематические модели, дистрибутивная семантика, векторные представления слов.
+
-
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
+
-
* Определение тональности текстов.
+
 +
[https://yadi.sk/i/IpPdSvPF3WhqaZ Токенизация, коллокации, регулярные выражения.]
-
==== Литература ====
+
[https://yadi.sk/i/LJPzBqjh3SR6iU Языковые модели.]
 +
 
 +
[https://yadi.sk/i/JhLA4vgK3T2Z5b Скрытая марковская модель для дискретных признаков.]
 +
 
 +
[https://yadi.sk/i/tppvGyMm3T2ZDH Разметка частей речи.]
 +
 
 +
[https://yadi.sk/i/6_PSjMbc3UMmpL Классификация текстов.]
 +
 
 +
[[Media:10-MMP-Text_mining-Topic_modeling.pdf‎ |Вероятностное тематическое моделирование, часть 1.]]
 +
 
 +
[[Media:11-MMP-Text_mining-Topic_modeling.pdf‎ |Вероятностное тематическое моделирование, часть 2.]]
 +
 
 +
[https://yadi.sk/i/d0KD1pGT3WN4PC Тематическая модель PLSA и вывод алгоритма обучения.]
 +
 
 +
[https://yadi.sk/i/nT97JtGe3UMoET Векторные представления слов.]
 +
 
 +
[https://yadi.sk/i/xDsfPtB73UMmpr Оценка тональности текстов.]
 +
 
 +
[https://yadi.sk/i/EeyKP_5e3V6Bkt Редакторское расстояние.]
 +
 
 +
[https://yadi.sk/i/_yBptVvq3UMmqB Сверточные нейросети для анализа текстов.]
 +
 
 +
[https://yadi.sk/i/5geE6Z8e3UNoQm Рекуррентные нейросети.]
 +
 
 +
[https://yadi.sk/i/_0aK0Vos3Uoz5M Применения рекуррентных нейросетей.]
 +
 
 +
[https://yadi.sk/i/YpB5NDRL3WgnpJ Модели со вниманием.]
 +
 
 +
[https://yadi.sk/i/wok22Hrd3WgoLn Синтаксический разбор.]
 +
 
 +
[https://yadi.sk/i/izp1nd753Wgo5H Извлечение информации из текста.]
 +
 
 +
[https://yadi.sk/i/0CPzVBc73Wgobd Ответы на вопросы, автоматическая суммаризация.]
 +
 
 +
== Семинары ==
 +
 
 +
{| class="wikitable"
 +
|-
 +
!
 +
! Дата
 +
! Тема
 +
! Материалы
 +
|-
 +
| Семинар 1
 +
| 9.02.2018
 +
| Правила курса, получение данных, предобработка текста, извлечение коллокаций
 +
| [[Медиа:Mel_lain_msu_nlp_sem_1.pdf| Слайды]]
 +
|
 +
|-
 +
| Семинар 2
 +
| 17.02.2018
 +
| Языковые модели, статистический машинный перевод, задача выравнивания
 +
| [[Медиа:Mel_lain_msu_nlp_sem_2.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 3
 +
| 12.03.2018
 +
| Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности
 +
| [[Медиа:Mel_lain_msu_nlp_sem_3.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 4
 +
| 23.03.2018
 +
| Тематическое моделирование
 +
| [[Медиа:Mel_lain_msu_nlp_sem_4.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 5
 +
| 30.03.2018
 +
| Векторные представления слов + доклады
 +
| [[Медиа:Mel_lain_msu_nlp_sem_5.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 6
 +
| 06.04.2018
 +
| Доклады
 +
|
 +
|
 +
|-
 +
| Семинар 7
 +
| 20.04.2018
 +
| Информационный поиск
 +
| [[Медиа:Mel_lain_msu_nlp_sem_6.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 8
 +
| 27.04.2018
 +
| Глубинное обучение в обработке текстов
 +
| [[Медиа:Mel_lain_msu_nlp_sem_7.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 9
 +
| 4.05.2018
 +
| Доклады
 +
|
 +
|
 +
|}
 +
 
 +
[https://yadi.sk/d/dwFXhHLj3UC8CT Ссылка на слайды докладов]
 +
 
 +
== Задания ==
 +
 
 +
{| class="wikitable"
 +
|-
 +
!
 +
! Дедлайн
 +
! Баллы
 +
! Тема
 +
! Материалы
 +
|-
 +
| Лабораторная 1
 +
| 21:00 8 марта 2018
 +
| 10 баллов
 +
| Языковое моделирование и распознавание языка.
 +
| [https://yadi.sk/d/WENL_pAz3SgyRz Ipython-ноутбук с заданием + данные].
 +
|-
 +
| Лабораторная 2
 +
| 21:00 29 марта 2018
 +
| 10 баллов
 +
| Определение частей речи и
 +
выделение именованных сущностей.
 +
| [https://yadi.sk/d/HZRejDwF3TRJkL Ipython-ноутбук с заданием].
 +
|-
 +
| Лабораторная 3
 +
| 21:00 15 апреля 2018
 +
| 15 баллов
 +
| Задача выравнивания в машинном переводе.
 +
| [https://drive.google.com/drive/folders/0B2cCJQ2_aOwjYWcxc1BOVXh0bEU Материалы задания].
 +
|-
 +
| Лабораторная 4
 +
| 21:00 2 мая 2018
 +
| 15 баллов
 +
| Векторные представления слов, тематические модели, анализ тональности.
 +
| [https://drive.google.com/file/d/0B9G5sfFTlfxrTWJIaU9TRV9YeTA Данные] [https://yadi.sk/i/K8Y5M7TR3UYBE5 Формулировка задания].
 +
|-
 +
|}
 +
 
 +
===== Результаты проверки =====
 +
 
 +
{| class="wikitable"
 +
|-
 +
! Студенты
 +
! Лабораторная № 1
 +
! Лабораторная № 2
 +
! Лабораторная № 3
 +
! Лабораторная № 4
 +
! Доклад + выступление
 +
! Итог
 +
|-
 +
| Амир Мирас
 +
| 8.5
 +
| 8.3
 +
|
 +
| 9.5
 +
| 4
 +
| 30.3
 +
|-
 +
| Белобородов Дмитрий
 +
| 9.5
 +
| 10
 +
| 17
 +
| 14.5
 +
| 5+5
 +
| 61.0
 +
|-
 +
| Бобров Евгений
 +
| 7
 +
| 6.4
 +
| 12
 +
| 5
 +
| 5+5
 +
| 40.4
 +
|-
 +
| Бобров Роман
 +
| 5
 +
| 10.5
 +
| 17
 +
|
 +
|
 +
| 32.5
 +
|-
 +
| Гарипов Тимур
 +
| 9
 +
| 10.5
 +
| 12
 +
| 14.5
 +
| 5
 +
| 52.0
 +
|-
 +
| Драпак Степан
 +
| 8.5
 +
| 11
 +
| 14
 +
| 14
 +
| 5
 +
| 52.5
 +
|-
 +
| Каюмов Эмиль
 +
| 9.3
 +
| 9.2
 +
| 14
 +
| 12
 +
|
 +
| 44.5
 +
|-
 +
| Коваленко Павел
 +
| 8
 +
| 10.3
 +
| 14
 +
| 14.5
 +
| 5
 +
| 51.8
 +
|-
 +
| Лунин Дмитрий
 +
| 8.4
 +
| 8.8
 +
| 5
 +
| 6
 +
|
 +
| 28.2
 +
|-
 +
| Николаев Владимир
 +
| 7.4
 +
| 8.4
 +
| 12
 +
| 14.5
 +
| 5+5
 +
| 52.3
 +
|-
 +
| Пиджакова Анна
 +
| 5.7
 +
| 5.3
 +
| 7
 +
| 4
 +
|
 +
| 22.0
 +
|-
 +
| Полыковский Даниил
 +
| 8.5
 +
| 9.5
 +
| 17
 +
| 14.5
 +
| 5+5
 +
| 59.5
 +
|-
 +
| Попов Артём
 +
| 9.5
 +
| 12
 +
| 15
 +
| 14.5
 +
| 5+5
 +
| 61.0
 +
|-
 +
| Таскынов Ануар
 +
| 5.5
 +
| 10.9
 +
| 16
 +
| 12.5
 +
| 5+5
 +
| 54.9
 +
|-
 +
| Трубицын Юрий
 +
| 3.5
 +
| 1
 +
| 14
 +
| 4
 +
|
 +
| 22.5
 +
|-
 +
| Ходырева Виктория
 +
| 9
 +
| 5.3
 +
| 12
 +
| 4
 +
|
 +
| 30.3
 +
|-
 +
| Шолохова Татьяна
 +
| 9
 +
| 10.8
 +
| 12
 +
| 14.5
 +
| 5
 +
| 51.3
 +
|-
 +
|}
 +
 
 +
[https://docs.google.com/spreadsheets/d/16lEUvPGW-V00Rz3IuYvJ4zX3da38uslOw67r-j3ANJw/edit?usp=sharing Результаты проверки]
 +
 
 +
==== Оценка за курс ====
 +
 
 +
Оценка за курс определяется оценкой за экзамен (0,3,4 или 5) и результатами работы в семестре (от 0 до 60 баллов включительно). Оценивание производится по следующей схеме:
 +
 
 +
* 50+ баллов - автомат, при условии выполнения всех 4 лаб и написании реферата (выступление обязательным не является).
 +
* 40-49 баллов - итоговая оценка равна оценке за экзамен плюс 1 балл
 +
* 30-39 баллов - итоговая оценка равна оценке за экзамен
 +
* 20-29 баллов - итоговая оценка равна оценке за экзамен минус 1 балл
 +
* 19- баллов - недопуск к экзамену (в этом случае нужно будет дополнительно решать задания до получения суммарного числа баллов >=20)
 +
 
 +
На экзамене будут вопросы по теоретическому минимуму и по основному материалу. Незнание ответов на вопросы теоретического минимума приводит к пересдаче, количество баллов за семестровую работу при этом никак не учитывается. На самой пересдаче правила аналогичны основному экзамену.
 +
 
 +
== Литература ==
[https://www.youtube.com/playlist?list=PLCJlDcMjVoEdtem5GaohTC1o9HTTFtK7_ Stanford: Deep learning in natural language processing. Spring 2016.]
[https://www.youtube.com/playlist?list=PLCJlDcMjVoEdtem5GaohTC1o9HTTFtK7_ Stanford: Deep learning in natural language processing. Spring 2016.]

Текущая версия

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
  • Лектор: Виктор Китов
  • Семинарист: Мурат Апишев
  • Почта курса (семинары, задания): nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Экзамен

Экзамен пройдет 13 июня в ауд. 579.

Билеты к экзамену

Лекции

Токенизация, коллокации, регулярные выражения.

Языковые модели.

Скрытая марковская модель для дискретных признаков.

Разметка частей речи.

Классификация текстов.

Вероятностное тематическое моделирование, часть 1.

Вероятностное тематическое моделирование, часть 2.

Тематическая модель PLSA и вывод алгоритма обучения.

Векторные представления слов.

Оценка тональности текстов.

Редакторское расстояние.

Сверточные нейросети для анализа текстов.

Рекуррентные нейросети.

Применения рекуррентных нейросетей.

Модели со вниманием.

Синтаксический разбор.

Извлечение информации из текста.

Ответы на вопросы, автоматическая суммаризация.

Семинары

Дата Тема Материалы
Семинар 1 9.02.2018 Правила курса, получение данных, предобработка текста, извлечение коллокаций Слайды
Семинар 2 17.02.2018 Языковые модели, статистический машинный перевод, задача выравнивания Слайды
Семинар 3 12.03.2018 Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности Слайды
Семинар 4 23.03.2018 Тематическое моделирование Слайды
Семинар 5 30.03.2018 Векторные представления слов + доклады Слайды
Семинар 6 06.04.2018 Доклады
Семинар 7 20.04.2018 Информационный поиск Слайды
Семинар 8 27.04.2018 Глубинное обучение в обработке текстов Слайды
Семинар 9 4.05.2018 Доклады

Ссылка на слайды докладов

Задания

Дедлайн Баллы Тема Материалы
Лабораторная 1 21:00 8 марта 2018 10 баллов Языковое моделирование и распознавание языка. Ipython-ноутбук с заданием + данные.
Лабораторная 2 21:00 29 марта 2018 10 баллов Определение частей речи и

выделение именованных сущностей.

Ipython-ноутбук с заданием.
Лабораторная 3 21:00 15 апреля 2018 15 баллов Задача выравнивания в машинном переводе. Материалы задания.
Лабораторная 4 21:00 2 мая 2018 15 баллов Векторные представления слов, тематические модели, анализ тональности. Данные Формулировка задания.
Результаты проверки
Студенты Лабораторная № 1 Лабораторная № 2 Лабораторная № 3 Лабораторная № 4 Доклад + выступление Итог
Амир Мирас 8.5 8.3 9.5 4 30.3
Белобородов Дмитрий 9.5 10 17 14.5 5+5 61.0
Бобров Евгений 7 6.4 12 5 5+5 40.4
Бобров Роман 5 10.5 17 32.5
Гарипов Тимур 9 10.5 12 14.5 5 52.0
Драпак Степан 8.5 11 14 14 5 52.5
Каюмов Эмиль 9.3 9.2 14 12 44.5
Коваленко Павел 8 10.3 14 14.5 5 51.8
Лунин Дмитрий 8.4 8.8 5 6 28.2
Николаев Владимир 7.4 8.4 12 14.5 5+5 52.3
Пиджакова Анна 5.7 5.3 7 4 22.0
Полыковский Даниил 8.5 9.5 17 14.5 5+5 59.5
Попов Артём 9.5 12 15 14.5 5+5 61.0
Таскынов Ануар 5.5 10.9 16 12.5 5+5 54.9
Трубицын Юрий 3.5 1 14 4 22.5
Ходырева Виктория 9 5.3 12 4 30.3
Шолохова Татьяна 9 10.8 12 14.5 5 51.3

Результаты проверки

Оценка за курс

Оценка за курс определяется оценкой за экзамен (0,3,4 или 5) и результатами работы в семестре (от 0 до 60 баллов включительно). Оценивание производится по следующей схеме:

  • 50+ баллов - автомат, при условии выполнения всех 4 лаб и написании реферата (выступление обязательным не является).
  • 40-49 баллов - итоговая оценка равна оценке за экзамен плюс 1 балл
  • 30-39 баллов - итоговая оценка равна оценке за экзамен
  • 20-29 баллов - итоговая оценка равна оценке за экзамен минус 1 балл
  • 19- баллов - недопуск к экзамену (в этом случае нужно будет дополнительно решать задания до получения суммарного числа баллов >=20)

На экзамене будут вопросы по теоретическому минимуму и по основному материалу. Незнание ответов на вопросы теоретического минимума приводит к пересдаче, количество баллов за семестровую работу при этом никак не учитывается. На самой пересдаче правила аналогичны основному экзамену.

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.


Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты