Современные методы распознавания и синтеза речи (курс лекций)/2018
Материал из MachineLearning.
(27 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
Лекторы: Воропаев А., Соловьев Д., Полыковский Д. | Лекторы: Воропаев А., Соловьев Д., Полыковский Д. | ||
- | |||
== Аннотация == | == Аннотация == | ||
Строка 9: | Строка 8: | ||
== Учебный план == | == Учебный план == | ||
+ | {{важно|Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).}} | ||
+ | <ul> | ||
+ | <li>Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524</li> | ||
+ | <li>Чат в Telegram: [https://t.me/joinchat/BoJy2Uvjc4fqPOumnFvfZw ссылка]</li> | ||
+ | <li>Инвайт в Anytask: lWVASKX, [http://anytask.org/course/288 курс в Anytask] </li> | ||
+ | <li> Тут вы можете всегда оставить анонимный отзыв: [https://goo.gl/forms/gQw7flpgFxDv7iez2 ссылка]</li> | ||
+ | {{важно|Финальная защита проектов пройдет 9-ого июня в 16:00. Аудитория будет уточнена позже}} | ||
+ | |||
+ | |||
{| class="standard" | {| class="standard" | ||
!Дата !! № занятия !! Тема !! Материалы | !Дата !! № занятия !! Тема !! Материалы | ||
|- | |- | ||
- | |14.02.2018 || Лекция 1 || Преобразование Фурье. Дискретное преобразование Фурье. Свойства. | + | |14.02.2018 || Лекция 1 || <h5>Дискретные сигналы. Преобразование Фурье.</h5> |
+ | <p>Введение в курс. Терминология. Гильбертово пространство. <br >Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис. <br> Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями. <br> Свойства. Быстрое преобразование Фурье.</p> | ||
+ | || [http://www.machinelearning.ru/wiki/images/8/8b/Digital_Signal_Processing%2C_lecture_1.pdf Конспект] <br> Ch. 1 — Ch. 4, [2] | ||
|- | |- | ||
|21.02.2018 || Лекция 2 || | |21.02.2018 || Лекция 2 || | ||
- | + | <p> <h5> Цифровые фильтры </h5> | |
- | || | + | Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность, <br> импульсная характеристика. Z-transform. Подходы к построению фильтров.</p> |
+ | || [http://www.machinelearning.ru/wiki/images/1/1e/Digital_Signal_Processing%2C_lecture_2.pdf Конспект] <br> Ch. 5 — Ch. 7, [2] | ||
|- | |- | ||
|18.02.2018 || Лекция 3 || | |18.02.2018 || Лекция 3 || | ||
- | + | <p><h5>Частотно-временной анализ.</h5> | |
- | + | Частотно-временной анализ. Оконное преобразование Фурье. <br>Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование. | |
+ | || [http://www.machinelearning.ru/wiki/images/f/fe/Digital_Signal_Processing%2C_lecture_3.pdf Конспект]<br> Ch. 7, [5] <br> [http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf статья]</p> | ||
|- | |- | ||
- | |07.03.2018 || Лекция 4 || | + | |<s>07.03.2018</s> {{важно|14.03.2018}} || Лекция 4 || |
- | Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). | + | <p><h5>Аналого-цифровые преобразователи</h5>Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи. <br> Beamforming. Сжатие сигналов (MP3, JPEG). </p> |
- | || | + | || [http://www.machinelearning.ru/wiki/images/a/ad/Digital_Signal_Processing%2C_lecture_4.pdf Слайды] <br> Ch. II, VII, IX [1] <br> Ch. 9, 10 [2] |
|- | |- | ||
- | |14.03.2018 || Лекция 5 || | + | |14.03.2018 || Лекция 5 || <p> <h5> Речь </h5> Речь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны. <br> Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. <br>Выравнивание. Нормализация текстов для синтеза речи.</p> |
+ | || [http://www.machinelearning.ru/wiki/images/6/6d/Digital_Signal_Processing%2C_lecture_5.pdf Слайды] <br> Ch. 1, [6] <br> [7] <br> Ch.6, [8] <br> [https://hal.inria.fr/hal-01585554/document Статья] <br> [https://www.ee.columbia.edu/~dpwe/papers/Talkin95-rapt.pdf Статья] | ||
|- | |- | ||
- | |21.03.2018 || Лекция 6 || || | + | |21.03.2018 || Лекция 6 || <p>Распознавание речи. Hidden Markov Models для распознавания. GMM.</p> || Ch. 9, [3а] <br> Ch. 9, [3б] <br> [http://www.springer.com/cda/content/document/cda_downloaddocument/9783540740476-c1.pdf?SGWID=0-0-45-452103-p173751818 статья] <br> [http://www.machinelearning.ru/wiki/images/c/c3/Digital_Signal_Processing%2C_lecture_6.pdf Слайды] |
|- | |- | ||
- | |28.03.2018 || Лекция 7 || || | + | |28.03.2018 || Лекция 7 || <p>Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. <br>Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC).</p>|| Ch.10, [3б] <br> |
+ | [https://www.microsoft.com/en-us/research/publication/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F171498%2Fhintondengyuetal-spm2012.pdf статья] <br> [https://www.sciencedirect.com/science/article/pii/S0885230816301930 статья] <br> [https://www.cs.toronto.edu/~graves/icml_2006.pdf статья] <br> [https://arxiv.org/pdf/1412.5567.pdf статья] <br> [http://www.machinelearning.ru/wiki/images/c/c6/Digital_Signal_Processing%2C_lecture_7.pdf Слайды] | ||
+ | |||
|- | |- | ||
- | |04.04.2018 || Лекция 8 || | + | |04.04.2018 || Лекция 8 || <p>Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.</p> || |
+ | [http://www.machinelearning.ru/wiki/images/e/e2/Digital_Signal_Processing%2C_lecture_8.pdf Слайды]<br> | ||
+ | [https://arxiv.org/abs/1508.01211 Статья] | ||
|- | |- | ||
- | |11.04.2018 || Лекция 9 || | + | |11.04.2018 || Лекция 9 || <p>Идентификация голоса. Определение конца предложения. <br>Определение активности. Распознавание ключевой фразы.</p> || |
|- | |- | ||
- | |18.04.2018 || Лекция 10 || | + | |18.04.2018 || Лекция 10 || <p>Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.<br> Алгоритм Гриффина-Лима.</p> || [http://www.machinelearning.ru/wiki/images/f/f6/Digital_Signal_Processing%2C_lecture_9.pdf Слайды] |
|- | |- | ||
- | |25.04.2018 || Лекция 11 || || | + | |25.04.2018 || Лекция 11 || <p>Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. <br>Multi-speaker synthesis. Tacotron.</p>|| [http://www.machinelearning.ru/wiki/images/3/31/Digital_Signal_Processing%2C_lecture_11.pdf Слайды] |
|- | |- | ||
- | |16.05.2018 || Лекция 12 || || | + | |16.05.2018 || Лекция 12 || <h5>Защита финального проекта</h5>|| |
+ | |} | ||
+ | |||
+ | == Практические задания == | ||
+ | Задания сдаются в системе Anytask: [http://anytask.org/course/288 ссылка]. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX". | ||
+ | {| class="standard" | ||
+ | !Тема !! Макс. балл !! Дата выдачи !! Срок сдачи !! Крайний срок | ||
+ | |- | ||
+ | |<p>[https://drive.google.com/open?id=1OGi5VKPlqBoyPo1bdeIfqz_Ytxc_BMW7 Преобразование Фурье]</p>|| 15 || 24.02.2018 || 10.03.2018 || 24.03.2018 | ||
+ | |- | ||
+ | |<p>[https://drive.google.com/open?id=1PoEpLJDn0HJ9AVslynGUai1OMIjgSX4Z Распознавание команд]</p> || 25 || 01.04.2018 || 15.04.2018 || 29.04.2018 | ||
+ | |- | ||
+ | |<p>[https://www.dropbox.com/s/cs5azxrx9alpwvb/Task%203.zip?dl=0 Синтез звука] </p>|| 25 || 18.04.2018 || 09.05.2018 || 23.05.2018 | ||
+ | |- | ||
+ | |<p>Итоговый проект </p> || 35 || 07.03.2018 || 16.05.2018 || Экзамен | ||
|} | |} | ||
== Система выставления оценок по курсу == | == Система выставления оценок по курсу == | ||
+ | |||
+ | В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов. | ||
+ | |||
+ | При пересчете баллов итоговая оценка ставится по следующей шкале: | ||
+ | * [0, 40) — “неуд” | ||
+ | * [40, 60) — “удовл” | ||
+ | * [60, 80) — “хор” | ||
+ | * [80, 100] — “отл” | ||
+ | |||
+ | Для получения зачета необходимо получить не менее 50 баллов. | ||
+ | |||
+ | == Итоговый проект == | ||
+ | |||
+ | Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее: | ||
+ | |||
+ | * Определиться с темой и записать ее и состав команды в таблицу: [https://docs.google.com/spreadsheets/d/1IhBLsbDvtO648SOlc2EjrxvJ3hdvGcczf6UUpuyKXwA/edit#gid=0 ссылка] | ||
+ | * Найти и проанализировать релевантную литературу | ||
+ | * Выбрать один или несколько методов для реализации | ||
+ | * Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов) | ||
+ | * Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация) | ||
+ | |||
+ | Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта. | ||
+ | |||
+ | Критерии выставления баллов: | ||
+ | <ol> | ||
+ | <li>Материал (15 баллов) | ||
+ | * Вклад участника (0-6) | ||
+ | * Выбор метода (0-3) | ||
+ | * Сложность метода (0-3) | ||
+ | * Релевантность метода (0-3)</li> | ||
+ | <li> Код (10 баллов) | ||
+ | * Своевременность выполнения (0-2) | ||
+ | * Понятность (0-5) | ||
+ | * Воспроизводимость (0-3)</li> | ||
+ | <li> Выступление (10 баллов) | ||
+ | * Понятность [общая и индивидуальная] (0-5) | ||
+ | * Полнота (0-5)</li> | ||
+ | </ol> | ||
+ | |||
+ | При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка. | ||
== Литература == | == Литература == | ||
+ | [1] [https://www.amazon.com/Digital-Signal-Processing-Handbook-Second/dp/1420046047 The Digital Signal Processing Handbook, Vijay Madiestti] | ||
+ | |||
+ | [2] [http://www.sp4comm.org/getit.html Signal Processing For Communications, Paolo Prandoni & Martin Vettarli] | ||
+ | |||
+ | [3] [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing. Dan Jurafsky and James H. Martin] | ||
+ | |||
+ | [3a] [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft] | ||
+ | |||
+ | [3б] [https://books.google.ru/books/about/Speech_and_Language_Processing.html?id=Cq2gBwAAQBAJ&source=kp_cover&redir_esc=y Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition] | ||
+ | |||
+ | [4] [http://web.stanford.edu/class/cs224s/syllabus.html CS224S / LINGUIST285 - Spoken Language Processing] | ||
+ | |||
+ | [5] [http://web.ipac.caltech.edu/staff/fmasci/home/astro_refs/Digital_Image_Processing_2ndEd.pdf Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods] | ||
+ | |||
+ | [6] [https://books.google.ru/books?id=nYN2CgAAQBAJ&pg=PA1&hl=ru&source=gbs_toc_r&cad=4#v=onepage&q&f=false The Speech Chain: The Physics and Biology of Spoken Language, Second Edition, Peter B. Denes,Elliot N. Pinson] | ||
+ | |||
+ | [7] [http://publ.lib.ru/ARCHIVES/F/FANT_G/_Fant_G..html Акустическая теория речеобразования. Г. Фант, 1964] | ||
+ | |||
+ | [8] [https://www.lrde.epita.fr/~reda/cours/speech/PH%20Spoken%20Language%20Processing%20-%20A%20Guide%20to%20Theory,%20Algorithm%20and%20System%20Development%20(2001) Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001] | ||
+ | |||
+ | [9] [https://arxiv.org/abs/1709.07552 David Ferris, Techniques and Challenges in Speech Synthesis, 2017] | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Лекторы: Воропаев А., Соловьев Д., Полыковский Д.
Содержание |
Аннотация
Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.
Учебный план
Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).
- Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524
- Чат в Telegram: ссылка
- Инвайт в Anytask: lWVASKX, курс в Anytask
- Тут вы можете всегда оставить анонимный отзыв: ссылка
- [0, 40) — “неуд”
- [40, 60) — “удовл”
- [60, 80) — “хор”
- [80, 100] — “отл”
- Определиться с темой и записать ее и состав команды в таблицу: ссылка
- Найти и проанализировать релевантную литературу
- Выбрать один или несколько методов для реализации
- Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
- Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)
- Материал (15 баллов)
- Вклад участника (0-6)
- Выбор метода (0-3)
- Сложность метода (0-3)
- Релевантность метода (0-3)
Финальная защита проектов пройдет 9-ого июня в 16:00. Аудитория будет уточнена позже
Дата | № занятия | Тема | Материалы |
---|---|---|---|
14.02.2018 | Лекция 1 | Дискретные сигналы. Преобразование Фурье.Введение в курс. Терминология. Гильбертово пространство. | Конспект Ch. 1 — Ch. 4, [2] |
21.02.2018 | Лекция 2 |
Цифровые фильтрыЛинейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность,импульсная характеристика. Z-transform. Подходы к построению фильтров. | Конспект Ch. 5 — Ch. 7, [2] |
18.02.2018 | Лекция 3 |
Частотно-временной анализ.Частотно-временной анализ. Оконное преобразование Фурье. | Конспект Ch. 7, [5] статья |
Лекция 4 |
Аналого-цифровые преобразователиСэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи.Beamforming. Сжатие сигналов (MP3, JPEG). | Слайды Ch. II, VII, IX [1] Ch. 9, 10 [2] | |
14.03.2018 | Лекция 5 | РечьРечь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны.Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. Выравнивание. Нормализация текстов для синтеза речи. | Слайды Ch. 1, [6] [7] Ch.6, [8] Статья Статья |
21.03.2018 | Лекция 6 | Распознавание речи. Hidden Markov Models для распознавания. GMM. | Ch. 9, [3а] Ch. 9, [3б] статья Слайды |
28.03.2018 | Лекция 7 | Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. | Ch.10, [3б] |
04.04.2018 | Лекция 8 | Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell. | |
11.04.2018 | Лекция 9 | Идентификация голоса. Определение конца предложения. | |
18.04.2018 | Лекция 10 | Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы. | Слайды |
25.04.2018 | Лекция 11 | Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. | Слайды |
16.05.2018 | Лекция 12 | Защита финального проекта |
Практические задания
Задания сдаются в системе Anytask: ссылка. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".
Тема | Макс. балл | Дата выдачи | Срок сдачи | Крайний срок |
---|---|---|---|---|
15 | 24.02.2018 | 10.03.2018 | 24.03.2018 | |
25 | 01.04.2018 | 15.04.2018 | 29.04.2018 | |
25 | 18.04.2018 | 09.05.2018 | 23.05.2018 | |
Итоговый проект | 35 | 07.03.2018 | 16.05.2018 | Экзамен |
Система выставления оценок по курсу
В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
При пересчете баллов итоговая оценка ставится по следующей шкале:
Для получения зачета необходимо получить не менее 50 баллов.
Итоговый проект
Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:
Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.
Критерии выставления баллов:
- Своевременность выполнения (0-2)
- Понятность (0-5)
- Воспроизводимость (0-3)
- Понятность [общая и индивидуальная] (0-5)
- Полнота (0-5)
При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка.
Литература
[1] The Digital Signal Processing Handbook, Vijay Madiestti
[2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli
[3] Speech and Language Processing. Dan Jurafsky and James H. Martin
[3a] Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft
[3б] Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition
[4] CS224S / LINGUIST285 - Spoken Language Processing
[5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods
[7] Акустическая теория речеобразования. Г. Фант, 1964
[9] David Ferris, Techniques and Challenges in Speech Synthesis, 2017