Современные методы распознавания и синтеза речи (курс лекций)/2018
Материал из MachineLearning.
(+ аудитория) |
(Учебный план) |
||
Строка 12: | Строка 12: | ||
!Дата !! № занятия !! Тема !! Материалы | !Дата !! № занятия !! Тема !! Материалы | ||
|- | |- | ||
- | |14.02.2018 || Лекция 1 || Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT || | + | |14.02.2018 || Лекция 1 || <p>Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT</p> || |
|- | |- | ||
|21.02.2018 || Лекция 2 || | |21.02.2018 || Лекция 2 || | ||
- | Быстрое преобразование Фурье. Вейвлеты. | + | <p>Быстрое преобразование Фурье. Вейвлеты.</p> |
|| | || | ||
|- | |- | ||
|18.02.2018 || Лекция 3 || | |18.02.2018 || Лекция 3 || | ||
- | Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров | + | <p>Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров</p> |
|| | || | ||
|- | |- | ||
|07.03.2018 || Лекция 4 || | |07.03.2018 || Лекция 4 || | ||
- | Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming | + | <p>Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming</p> |
|| | || | ||
|- | |- | ||
- | |14.03.2018 || Лекция 5 || | + | |14.03.2018 || Лекция 5 || <p>Речь. Биологические аспекты. Формирование F0, F1, F2, F2. и их извлечение из звуковой волны. <br> Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. <br>Выравнивание. Нормализация текстов для синтеза речи.</p> || |
|- | |- | ||
- | |21.03.2018 || Лекция 6 || || | + | |21.03.2018 || Лекция 6 || <p>Распознавание речи. Hidden Markov Models для распознавания. GMM.</p> || |
|- | |- | ||
- | |28.03.2018 || Лекция 7 || || | + | |28.03.2018 || Лекция 7 || <p>Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. <br>Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC).</p>|| |
|- | |- | ||
- | |04.04.2018 || Лекция 8 || | + | |04.04.2018 || Лекция 8 || <p>Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.</p> || |
|- | |- | ||
- | |11.04.2018 || Лекция 9 || | + | |11.04.2018 || Лекция 9 || <p>Идентификация голоса. Определение конца предложения. <br>Определение активности. Распознавание ключевой фразы.</p> || |
|- | |- | ||
- | |18.04.2018 || Лекция 10 || | + | |18.04.2018 || Лекция 10 || <p>Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.<br> Алгоритм Гриффина-Лима.</p> || |
|- | |- | ||
- | |25.04.2018 || Лекция 11 || || | + | |25.04.2018 || Лекция 11 || <p>Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. <br>Multi-speaker synthesis. Tacotron.</p>|| |
+ | |} | ||
+ | |||
+ | == Практические задания == | ||
+ | {| class="standard" | ||
+ | !Тема !! Макс. балл !! Дата выдачи !! Срок сдачи !! Крайний срок | ||
+ | |- | ||
+ | |<p>Преобразование Фурье</p>|| 15 || 21.02.2018 || 07.03.2018 || 21.03.2018 | ||
+ | |- | ||
+ | |<p>Распознавание команд</p> || 25 || 21.03.2018 || 04.04.2018 || 18.04.2018 | ||
|- | |- | ||
- | | | + | |<p>Синтез звука </p>|| 25 || 18.04.2018 || 02.05.2018 || 16.04.2018 |
+ | |- | ||
+ | |<p>Итоговый проект </p> || 35 || 07.03.2018 || Досрочная защита || Экзамен | ||
|} | |} | ||
== Система выставления оценок по курсу == | == Система выставления оценок по курсу == | ||
+ | |||
+ | В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов. | ||
+ | |||
+ | При пересчете баллов итоговая оценка ставится по следующей шкале: | ||
+ | * [0, 40) — “неуд.” | ||
+ | * [40, 60) — “удовл” | ||
+ | * [60, 80) — “хор” | ||
+ | * [80, 100] — “отл”. | ||
== Литература == | == Литература == |
Версия 08:53, 3 февраля 2018
Лекторы: Воропаев А., Соловьев Д., Полыковский Д.
Содержание |
Аннотация
Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.
Учебный план
Лекции проходят по средам в с 10:30 до 12:50 в ауд. 524
Дата | № занятия | Тема | Материалы |
---|---|---|---|
14.02.2018 | Лекция 1 | Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT | |
21.02.2018 | Лекция 2 |
Быстрое преобразование Фурье. Вейвлеты. | |
18.02.2018 | Лекция 3 |
Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров | |
07.03.2018 | Лекция 4 |
Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming | |
14.03.2018 | Лекция 5 | Речь. Биологические аспекты. Формирование F0, F1, F2, F2. и их извлечение из звуковой волны. | |
21.03.2018 | Лекция 6 | Распознавание речи. Hidden Markov Models для распознавания. GMM. | |
28.03.2018 | Лекция 7 | Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. | |
04.04.2018 | Лекция 8 | Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell. | |
11.04.2018 | Лекция 9 | Идентификация голоса. Определение конца предложения. | |
18.04.2018 | Лекция 10 | Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы. | |
25.04.2018 | Лекция 11 | Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. |
Практические задания
Тема | Макс. балл | Дата выдачи | Срок сдачи | Крайний срок |
---|---|---|---|---|
Преобразование Фурье | 15 | 21.02.2018 | 07.03.2018 | 21.03.2018 |
Распознавание команд | 25 | 21.03.2018 | 04.04.2018 | 18.04.2018 |
Синтез звука | 25 | 18.04.2018 | 02.05.2018 | 16.04.2018 |
Итоговый проект | 35 | 07.03.2018 | Досрочная защита | Экзамен |
Система выставления оценок по курсу
В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
При пересчете баллов итоговая оценка ставится по следующей шкале:
- [0, 40) — “неуд.”
- [40, 60) — “удовл”
- [60, 80) — “хор”
- [80, 100] — “отл”.