Современные методы распознавания и синтеза речи (курс лекций)/2018

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Лекторы: Воропаев А., Соловьев Д., Полыковский Д.

Содержание

1 Аннотация
2 Учебный план
3 Практические задания
4 Система выставления оценок по курсу
5 Итоговый проект
6 Литература

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.

Учебный план

Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).

Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524
Чат в Telegram: ссылка
Инвайт в Anytask: lWVASKX, курс в Anytask
Тут вы можете всегда оставить анонимный отзыв: ссылка

Финальная защита проектов пройдет 9-ого июня в 16:00. Аудитория будет уточнена позже

Дата	№ занятия	Тема	Материалы
14.02.2018	Лекция 1	Дискретные сигналы. Преобразование Фурье. Введение в курс. Терминология. Гильбертово пространство. Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис. Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями. Свойства. Быстрое преобразование Фурье.	Конспект Ch. 1 — Ch. 4, [2]
21.02.2018	Лекция 2	Цифровые фильтры Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность, импульсная характеристика. Z-transform. Подходы к построению фильтров.	Конспект Ch. 5 — Ch. 7, [2]
18.02.2018	Лекция 3	Частотно-временной анализ. Частотно-временной анализ. Оконное преобразование Фурье. Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.	Конспект Ch. 7, [5] статья
~~07.03.2018~~ 14.03.2018	Лекция 4	Аналого-цифровые преобразователи Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи. Beamforming. Сжатие сигналов (MP3, JPEG).	Слайды Ch. II, VII, IX [1] Ch. 9, 10 [2]
14.03.2018	Лекция 5	Речь Речь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны. Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. Выравнивание. Нормализация текстов для синтеза речи.	Слайды Ch. 1, [6] [7] Ch.6, [8] Статья Статья
21.03.2018	Лекция 6	Распознавание речи. Hidden Markov Models для распознавания. GMM.	Ch. 9, [3а] Ch. 9, [3б] статья Слайды
28.03.2018	Лекция 7	Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. Рекуррентные нейронные сети. Connectionist Temporal Classiﬁcation (CTC).	Ch.10, [3б] статья статья статья статья Слайды
04.04.2018	Лекция 8	Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.	Слайды Статья
11.04.2018	Лекция 9	Идентификация голоса. Определение конца предложения. Определение активности. Распознавание ключевой фразы.
18.04.2018	Лекция 10	Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы. Алгоритм Гриффина-Лима.	Слайды
25.04.2018	Лекция 11	Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. Multi-speaker synthesis. Tacotron.	Слайды
16.05.2018	Лекция 12	Защита финального проекта

Практические задания

Задания сдаются в системе Anytask: ссылка. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".

Тема	Макс. балл	Дата выдачи	Срок сдачи	Крайний срок
Преобразование Фурье	15	24.02.2018	10.03.2018	24.03.2018
Распознавание команд	25	01.04.2018	15.04.2018	29.04.2018
Синтез звука	25	18.04.2018	09.05.2018	23.05.2018
Итоговый проект	35	07.03.2018	16.05.2018	Экзамен

Система выставления оценок по курсу

В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

При пересчете баллов итоговая оценка ставится по следующей шкале:

[0, 40) — “неуд”
[40, 60) — “удовл”
[60, 80) — “хор”
[80, 100] — “отл”

Для получения зачета необходимо получить не менее 50 баллов.

Итоговый проект

Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:

Определиться с темой и записать ее и состав команды в таблицу: ссылка
Найти и проанализировать релевантную литературу
Выбрать один или несколько методов для реализации
Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)

Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.

Критерии выставления баллов:

Материал (15 баллов)
- Вклад участника (0-6)
- Выбор метода (0-3)
- Сложность метода (0-3)
- Релевантность метода (0-3)
Код (10 баллов)
- Своевременность выполнения (0-2)
- Понятность (0-5)
- Воспроизводимость (0-3)
Выступление (10 баллов)
- Понятность [общая и индивидуальная] (0-5)
- Полнота (0-5)

При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка.

Литература

[1] The Digital Signal Processing Handbook, Vijay Madiestti

[2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli

[3] Speech and Language Processing. Dan Jurafsky and James H. Martin

[3a] Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft

[3б] Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition

[4] CS224S / LINGUIST285 - Spoken Language Processing

[5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods

[6] The Speech Chain: The Physics and Biology of Spoken Language, Second Edition, Peter B. Denes,Elliot N. Pinson

[7] Акустическая теория речеобразования. Г. Фант, 1964

[8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001

David Ferris, Techniques and Challenges in Speech Synthesis, 2017

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B8_%D1%81%D0%B8%D0%BD%D1%82%D0%B5%D0%B7%D0%B0_%D1%80%D0%B5%D1%87%D0%B8_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29/2018»

Категория: Учебные курсы

@@ Строка 1: / Строка 1: @@
 Лекторы: Воропаев А., Соловьев Д., Полыковский Д.
 == Аннотация ==
@@ Строка 9: / Строка 8: @@
 == Учебный план ==
+{{важно|Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).}}
+<ul>
+<li>Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524</li>
+<li>Чат в Telegram: [https://t.me/joinchat/BoJy2Uvjc4fqPOumnFvfZw ссылка]</li>
+<li>Инвайт в Anytask: lWVASKX, [http://anytask.org/course/288 курс в Anytask] </li>
+<li> Тут вы можете всегда оставить анонимный отзыв: [https://goo.gl/forms/gQw7flpgFxDv7iez2 ссылка]</li>
+{{важно|Финальная защита проектов пройдет 9-ого июня в 16:00. Аудитория будет уточнена позже}}
 {| class="standard"
  !Дата !! № занятия !! Тема !! Материалы
  |-
-|14.02.2018 || Лекция 1  || Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT  ||
+|14.02.2018 || Лекция 1  || <h5>Дискретные сигналы. Преобразование Фурье.</h5>
+<p>Введение в курс. Терминология. Гильбертово пространство. <br >Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис. <br> Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями. <br> Свойства. Быстрое преобразование Фурье.</p>
+ || [http://www.machinelearning.ru/wiki/images/8/8b/Digital_Signal_Processing%2C_lecture_1.pdf Конспект] <br> Ch. 1 — Ch. 4, [2]
  |-
 |21.02.2018 || Лекция 2  ||
-Быстрое преобразование Фурье. Вейвлеты.
+<p> <h5> Цифровые фильтры </h5>
-  ||
+Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность, <br> импульсная характеристика. Z-transform. Подходы к построению фильтров.</p>
+  || [http://www.machinelearning.ru/wiki/images/1/1e/Digital_Signal_Processing%2C_lecture_2.pdf Конспект] <br> Ch. 5 — Ch. 7, [2]
  |-
 |18.02.2018 || Лекция 3  ||
-Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров
+<p><h5>Частотно-временной анализ.</h5>
- ||
+Частотно-временной анализ. Оконное преобразование Фурье. <br>Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.
+|| [http://www.machinelearning.ru/wiki/images/f/fe/Digital_Signal_Processing%2C_lecture_3.pdf Конспект]<br> Ch. 7, [5] <br> [http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf статья]</p>
  |-
-|07.03.2018 || Лекция 4  ||
+|<s>07.03.2018</s> {{важно|14.03.2018}} || Лекция 4  ||
-Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming
+<p><h5>Аналого-цифровые преобразователи</h5>Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи. <br> Beamforming. Сжатие сигналов (MP3, JPEG). </p>
- ||
+ || [http://www.machinelearning.ru/wiki/images/a/ad/Digital_Signal_Processing%2C_lecture_4.pdf Слайды] <br> Ch. II, VII, IX [1] <br> Ch. 9, 10 [2]
  |-
-|14.03.2018 || Лекция 5  ||  ||
+|14.03.2018 || Лекция 5  || <p> <h5> Речь </h5> Речь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны. <br> Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. <br>Выравнивание. Нормализация текстов для синтеза речи.</p>
+|| [http://www.machinelearning.ru/wiki/images/6/6d/Digital_Signal_Processing%2C_lecture_5.pdf Слайды] <br> Ch. 1, [6] <br>  [7] <br> Ch.6, [8] <br> [https://hal.inria.fr/hal-01585554/document Статья] <br> [https://www.ee.columbia.edu/~dpwe/papers/Talkin95-rapt.pdf Статья]
 |-
-|21.03.2018 || Лекция 6  ||  ||
+|21.03.2018 || Лекция 6  ||  <p>Распознавание речи. Hidden Markov Models для распознавания. GMM.</p> || Ch. 9, [3а] <br> Ch. 9, [3б] <br> [http://www.springer.com/cda/content/document/cda_downloaddocument/9783540740476-c1.pdf?SGWID=0-0-45-452103-p173751818 статья]  <br> [http://www.machinelearning.ru/wiki/images/c/c3/Digital_Signal_Processing%2C_lecture_6.pdf Слайды]
 |-
-|28.03.2018 || Лекция 7  ||  ||
+|28.03.2018 || Лекция 7  ||  <p>Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. <br>Рекуррентные нейронные сети. Connectionist Temporal Classiﬁcation (CTC).</p>|| Ch.10, [3б] <br>
+[https://www.microsoft.com/en-us/research/publication/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F171498%2Fhintondengyuetal-spm2012.pdf статья] <br> [https://www.sciencedirect.com/science/article/pii/S0885230816301930 статья] <br> [https://www.cs.toronto.edu/~graves/icml_2006.pdf статья] <br> [https://arxiv.org/pdf/1412.5567.pdf статья] <br> [http://www.machinelearning.ru/wiki/images/c/c6/Digital_Signal_Processing%2C_lecture_7.pdf Слайды]
 |-
-|04.04.2018 || Лекция 8  ||  ||
+|04.04.2018 || Лекция 8  || <p>Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.</p> ||
+[http://www.machinelearning.ru/wiki/images/e/e2/Digital_Signal_Processing%2C_lecture_8.pdf Слайды]<br>
+[https://arxiv.org/abs/1508.01211 Статья]
 |-
-|11.04.2018 || Лекция 9  ||  ||
+|11.04.2018 || Лекция 9  || <p>Идентификация голоса. Определение конца предложения. <br>Определение активности. Распознавание ключевой фразы.</p> ||
 |-
-|18.04.2018 || Лекция 10  ||  ||
+|18.04.2018 || Лекция 10  || <p>Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.<br> Алгоритм Гриффина-Лима.</p> || [http://www.machinelearning.ru/wiki/images/f/f6/Digital_Signal_Processing%2C_lecture_9.pdf Слайды]
 |-
-|25.04.2018 || Лекция 11  ||  ||
+|25.04.2018 || Лекция 11  ||  <p>Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. <br>Multi-speaker synthesis. Tacotron.</p>|| [http://www.machinelearning.ru/wiki/images/3/31/Digital_Signal_Processing%2C_lecture_11.pdf Слайды]
 |-
-|16.05.2018 || Лекция 12  ||  ||
+|16.05.2018 || Лекция 12  ||  <h5>Защита финального проекта</h5>||
+|}
+== Практические задания ==
+Задания сдаются в системе Anytask: [http://anytask.org/course/288 ссылка]. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".
+{| class="standard"
+ !Тема !! Макс. балл !! Дата выдачи !! Срок сдачи !! Крайний срок
+ |-
+|<p>[https://drive.google.com/open?id=1OGi5VKPlqBoyPo1bdeIfqz_Ytxc_BMW7 Преобразование Фурье]</p>|| 15 || 24.02.2018 ||  10.03.2018	|| 24.03.2018
+|-
+|<p>[https://drive.google.com/open?id=1PoEpLJDn0HJ9AVslynGUai1OMIjgSX4Z Распознавание команд]</p> || 25 || 01.04.2018	 || 15.04.2018 || 29.04.2018
+|-
+|<p>[https://www.dropbox.com/s/cs5azxrx9alpwvb/Task%203.zip?dl=0 Синтез звука] </p>|| 25 || 18.04.2018 || 09.05.2018 || 23.05.2018
+|-
+|<p>Итоговый проект </p> || 35 || 07.03.2018 || 16.05.2018 || Экзамен
 |}
 == Система выставления оценок по курсу ==
+В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
+При пересчете баллов итоговая оценка ставится по следующей шкале:
+* [0, 40) — “неуд”
+* [40, 60) — “удовл”
+* [60, 80) — “хор”
+* [80, 100] — “отл”
+Для получения зачета необходимо получить не менее 50 баллов.
+== Итоговый проект ==
+Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:
+* Определиться с темой и записать ее и состав команды в таблицу: [https://docs.google.com/spreadsheets/d/1IhBLsbDvtO648SOlc2EjrxvJ3hdvGcczf6UUpuyKXwA/edit#gid=0 ссылка]
+* Найти и проанализировать релевантную литературу
+* Выбрать один или несколько методов для реализации
+* Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
+* Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)
+Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.
+Критерии выставления баллов:
+<ol>
+<li>Материал (15 баллов)
+* Вклад участника (0-6)
+* Выбор метода (0-3)
+* Сложность метода (0-3)
+* Релевантность метода (0-3)</li>
+<li> Код (10 баллов)
+* Своевременность выполнения (0-2)
+* Понятность (0-5)
+* Воспроизводимость (0-3)</li>
+<li> Выступление (10 баллов)
+* Понятность [общая и индивидуальная] (0-5)
+* Полнота (0-5)</li>
+</ol>
+При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка.
 == Литература ==
+[1] [https://www.amazon.com/Digital-Signal-Processing-Handbook-Second/dp/1420046047 The Digital Signal Processing Handbook, Vijay Madiestti]
+[2] [http://www.sp4comm.org/getit.html Signal Processing For Communications, Paolo Prandoni & Martin Vettarli]
+[3] [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing. Dan Jurafsky and James H. Martin]
+[3a] [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft]
+[3б] [https://books.google.ru/books/about/Speech_and_Language_Processing.html?id=Cq2gBwAAQBAJ&source=kp_cover&redir_esc=y Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition]
+[4] [http://web.stanford.edu/class/cs224s/syllabus.html CS224S / LINGUIST285 - Spoken Language Processing]
+[5] [http://web.ipac.caltech.edu/staff/fmasci/home/astro_refs/Digital_Image_Processing_2ndEd.pdf Digital Image Processing 2nd Edition, Rafael C. Gonzalez,  Richard E. Woods]
+[6] [https://books.google.ru/books?id=nYN2CgAAQBAJ&pg=PA1&hl=ru&source=gbs_toc_r&cad=4#v=onepage&q&f=false The Speech Chain: The Physics and Biology of Spoken Language, Second Edition, Peter B. Denes,Elliot N. Pinson]
+[7] [http://publ.lib.ru/ARCHIVES/F/FANT_G/_Fant_G..html Акустическая теория речеобразования. Г. Фант, 1964]
+[8] [https://www.lrde.epita.fr/~reda/cours/speech/PH%20Spoken%20Language%20Processing%20-%20A%20Guide%20to%20Theory,%20Algorithm%20and%20System%20Development%20(2001) Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001]
+[9] [https://arxiv.org/abs/1709.07552 David Ferris, Techniques and Challenges in Speech Synthesis, 2017]
 [[Категория:Учебные курсы]]

Современные методы распознавания и синтеза речи (курс лекций)/2018

Материал из MachineLearning.

Текущая версия

Содержание

Аннотация

Учебный план

Дискретные сигналы. Преобразование Фурье.

Цифровые фильтры

Частотно-временной анализ.

Аналого-цифровые преобразователи

Речь

Защита финального проекта

Практические задания

Система выставления оценок по курсу

Итоговый проект

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты