Современные методы распознавания и синтеза речи (курс лекций)/2018

Материал из MachineLearning.

Версия от 19:02, 4 марта 2018; Daniil.polykovskiy (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Лекторы: Воропаев А., Соловьев Д., Полыковский Д.

Содержание

1 Аннотация
2 Учебный план
3 Практические задания
4 Система выставления оценок по курсу
5 Литература

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.

Учебный план

Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524
Чат в Telegram: ссылка
Инвайт в Anytask: lWVASKX, курс в Anytask
Тут вы можете всегда оставить анонимный отзыв: ссылка

Дата	№ занятия	Тема	Материалы
14.02.2018	Лекция 1	Дискретные сигналы. Преобразование Фурье. Введение в курс. Терминология. Гильбертово пространство. Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис. Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями. Свойства. Быстрое преобразование Фурье.	Конспект Ch. 1 — Ch. 4, [2]
21.02.2018	Лекция 2	Цифровые фильтры Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность, импульсная характеристика. Z-transform. Подходы к построению фильтров.	Конспект Ch. 5 — Ch. 7, [2]
18.02.2018	Лекция 3	Частотно-временной анализ. Частотно-временной анализ. Оконное преобразование Фурье. Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.	Конспект Ch. 7, [5] статья
07.03.2018	Лекция 4	Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming
14.03.2018	Лекция 5	Речь. Биологические аспекты. Формирование F0, F1, F2, F2. и их извлечение из звуковой волны. Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. Выравнивание. Нормализация текстов для синтеза речи.
21.03.2018	Лекция 6	Распознавание речи. Hidden Markov Models для распознавания. GMM.
28.03.2018	Лекция 7	Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. Рекуррентные нейронные сети. Connectionist Temporal Classiﬁcation (CTC).
04.04.2018	Лекция 8	Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.
11.04.2018	Лекция 9	Идентификация голоса. Определение конца предложения. Определение активности. Распознавание ключевой фразы.
18.04.2018	Лекция 10	Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы. Алгоритм Гриффина-Лима.
25.04.2018	Лекция 11	Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. Multi-speaker synthesis. Tacotron.

Практические задания

Задания сдаются в системе Anytask: ссылка. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".

Тема	Макс. балл	Дата выдачи	Срок сдачи	Крайний срок
Преобразование Фурье	15	24.02.2018	10.03.2018	24.03.2018
Распознавание команд	25	21.03.2018	04.04.2018	18.04.2018
Синтез звука	25	18.04.2018	02.05.2018	16.05.2018
Итоговый проект	35	07.03.2018	Досрочная защита	Экзамен

Система выставления оценок по курсу

В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

При пересчете баллов итоговая оценка ставится по следующей шкале: