Современные методы распознавания и синтеза речи (курс лекций)/2019

Материал из MachineLearning.

Перейти к: навигация, поиск

Лекторы: Полыковский Д., Бибик Д., Дуканов С., Воропаев А., Соловьев Д.

Содержание

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.


Учебный план

  • Лекции проходят по пятницам в с 10:30 до 12:05 в ауд. 612
  • Чат в Telegram: ссылка
  • Инвайт в Anytask: miHgsH0, страница
  • Тут вы можете всегда оставить анонимный отзыв: ссылка

  • Дата № занятия Тема Материалы
    15.02.2019 Лекция 1
    Дискретные сигналы. Преобразование Фурье.

    Введение в курс. Терминология. Гильбертово пространство.
    Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис.
    Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями.
    Свойства. Быстрое преобразование Фурье.

    Конспект
    Ch. 1 — Ch. 4, [2]
    22.02.2019 Лекция 2

    Цифровые фильтры
    Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность,
    импульсная характеристика. Z-transform. Подходы к построению фильтров.

    Конспект
    Ch. 5 — Ch. 7, [2]
    01.03.2019 Лекция 3

    Частотно-временной анализ.

    Частотно-временной анализ. Оконное преобразование Фурье.
    Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.

    Конспект
    Ch. 7, [5]
    статья

    15.03.2019 Лекция 4

    Аналого-цифровые преобразователи
    Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи.
    Beamforming. Сжатие сигналов (MP3, JPEG).

    Слайды
    Ch. II, VII, IX [1]
    Ch. 9, 10 [2]
    22.03.2019 Лекция 5

    Речь
    Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны.
    Гласные и согласные звуки. Выделение признаков из звука. Аугментация.
    Выравнивание. Нормализация текстов для синтеза речи.

    Слайды
    Ch. 1, [6]
    [7]
    Ch.6, [8]
    Статья
    Статья
    29.03.2019 Лекция 6

    Распознавание речи.
    Dynamic Time Warping. Фонемы. Скрытые Марковские модели для распознавания.
    Улучшение распознавание при помощи смесси Гуассиан.

    Ch. 9, [3а]
    Ch. 9, [3б]
    статья
    Слайды
    05.04.2019 Лекция 7

    Гибридные модели.
    Нейронные сети. Алгоритм обратного распространения ошибки.
    Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC).
    Механизмы внимания. Listen, Attend and Spell.

    Ch.10, [3б]

    статья
    статья
    статья
    статья
    Слайды 1
    Слайды 2
    Статья

    12.04.2019 Лекция 8

    Иные задачи
    Идентификация голоса. Определение конца предложения.
    Определение активности. Распознавание ключевой фразы.

    19.04.2019 Лекция 9

    Синтез звука 1
    Классические подходы. Восстановление звука из линейной спектрограммы.
    Алгоритм Гриффина-Лима.

    Слайды
    26.04.2019 Лекция 10

    Синтез звука 2
    Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения.
    Multi-speaker synthesis. Tacotron.

    Слайды

    Практические задания

    Задания сдаются в системе Anytask: страница. Для получения доступа к курсу, необходимо указать инвайт miHgsH0.

    Тема Макс. балл Дата выдачи Срок сдачи Крайний срок

    Преобразование Фурье

    15

    Распознавание команд

    25

    Синтез звука

    25

    Итоговый проект

    35

    Система выставления оценок по курсу

    В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

    При пересчете баллов итоговая оценка ставится по следующей шкале:

    • [0, 40) — “неуд”
    • [40, 60) — “удовл”
    • [60, 80) — “хор”
    • [80, 100] — “отл”

    Для получения зачета необходимо получить не менее 50 баллов.

    Итоговый проект

    Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:

    • Определиться с темой и записать ее и состав команды в таблицу: TODO
    • Найти и проанализировать релевантную литературу
    • Выбрать один или несколько методов для реализации
    • Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
    • Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)

    Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.

    Критерии выставления баллов:

    1. Материал (15 баллов)
      • Вклад участника (0-6)
      • Выбор метода (0-3)
      • Сложность метода (0-3)
      • Релевантность метода (0-3)
    2. Код (10 баллов)
      • Своевременность выполнения (0-2)
      • Понятность (0-5)
      • Воспроизводимость (0-3)
    3. Выступление (10 баллов)
      • Понятность [общая и индивидуальная] (0-5)
      • Полнота (0-5)

    При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка.

    Литература

    [1] The Digital Signal Processing Handbook, Vijay Madiestti

    [2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli

    [3] Speech and Language Processing. Dan Jurafsky and James H. Martin

    [3a] Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft

    [3б] Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition

    [4] CS224S / LINGUIST285 - Spoken Language Processing

    [5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods

    [6] The Speech Chain: The Physics and Biology of Spoken Language, Second Edition, Peter B. Denes,Elliot N. Pinson

    [7] Акустическая теория речеобразования. Г. Фант, 1964

    [8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001

    [9] David Ferris, Techniques and Challenges in Speech Synthesis, 2017
Личные инструменты