Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год
Материал из MachineLearning.
Это семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
Содержание | 
Где и когда
Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2) в аудитории Гарвард.
Проход строго по спискам! Записаться нужно здесь.
А потом придти на проходную с обратной стороны Мамонтова (вот сюда) и показать паспорт.
Контакты
topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.
artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.
anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).
https://goo.gl/rc4grq — короткая ссылка на эту страницу.
https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров
Расписание (весна)
| Дата | Тема | Докладчик | Материалы | 
|---|---|---|---|
| 7 февраля |  — Как ориентироваться в NLP трендах?
 — Обзор основных подходов построения диалоговых систем  |  — Артём Попов
 — Николай Кругликов  | — презентация | 
| 14 февраля | — Применение сегментной структуры документов в тематической модели | — Николай Скачков | — презентация теория (первые 4 раздела) | 
| 21 февраля |  — Мультиязычные эмбеддинги
 — Выделение мнений в коллекции новостей  | — Татьяна Савельева
 — Таснима Садекова  | — презентация | 
| 28 февраля |  — Автоматический перевод естественного языка в язык SQL
 — Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику)  |  — Дарина Дементьева
 — Амир Бакаров  | — презентация | 
| 7 марта |  Инструменты разработки в помощь исследователю:
 — Организованные исследования вне ipynotebook: граф вычислений на luigi — Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы — Воспроизведение результатов без боли, зачем исследователю docker и как он работает  | Геннадий Штех | |
| 14 марта | Интерпретируемость компонент в векторных моделях слов | Алексей Зобнин | презентация | 
| 21 марта | Моделирование языка в задаче построения вопросно-ответной системы | Дарья Соболева | презентация | 
| 28 марта | Вся правда об относительных коэффициентах регуляризации в ТМ | Виктор Булатов | презентация | 
| 4 апреля | Отмена семинара | ||
| 11 апреля |  — Word mover's distance для выявления семантической схожести коротких текстов
 — Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe  |  — Андрей Чернопятов
 — Денис Кирьянов  | |
| 18 апреля | Оценка качества и улучшение иерархических ARTM моделей | Антон Белый | |
| 25 апреля |   — Low-rank models for recommender systems with limited preference information
 — Темпоральное тематическое моделирование новостных потоков  |   — Евгений Фролов
 — Анастасия Фадеева  | |
| 16 мая | Автоматический акцентуатор для русского языка | Екатерина Черняк | |
| 23 мая | 
 — Обнаружение новых событий в новостном потоке  | 
 — Владислав Амелин  | 
Расписание (осень)
| Дата | Тема | Докладчик | Материалы | 
|---|---|---|---|
| 16 августа | Как вылезти из танка? | Анна Потапенко | Про Google и про ACL | 
| 30 августа |  Нейросетевые диалоговые системы в iPavlov
 Задачи NER (РИС!) и Paraphrasing.  | Михаил Бурцев и команда | Три презентации, clickable :) | 
| 6 сентября | Разборы статей: Google Vizier, Exploratory Search |  — Роман Дербаносов
 — Дарья Соболева — Анастасия Янина  | Презентация про Vizier
 [1], Pulp: A system for exploratory search of scientific literature [2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling  | 
| 13 сентября |  Вместо семинара воркшоп в вышке,
 нужно зарегистрироваться  | ||
| 20 сентября | — Как устроены рекомендательные системы
 — Особенности ведения прикладных проектов  | Виктор Кантор | Рекомендательные системы | 
| 27 сентября |  — Разбор статьи StarSpace: Emded all the things!
 — Как устроены вопросно-ответные системы  | —  Артем Попов
 — Сергей Юдин  | статья, презентация | 
| 4 октября | — Проблема определения числа тем в тематических моделях.
 — Термодинамический подход к результатам тематического моделирования.  | —  Константин Воронцов
 — Сергей Кольцов  | Презентация 1 | 
| 11 октября |  Ликбез с формулами: encoder-decoder architecture with attention.
 Как это работает на практике: neural machine translation, summarization.  | Анна Потапенко |  An overview of gradient descent optimization algorithms
 Stronger Baselines for Trustable Results in Neural Machine Translation  | 
| 18 октября |  — Get to the point! Summarization with pointer-generator networks
 —Reinforcement learning for weak supervision in NLP  | Анна Потапенко | Get to the point | 
| 25 октября | Workshop по BigARTM: простые и сложные примеры использования. | Мурат Апишев | Презентация | 
| 1 ноября | Тезаурусы, лексические цепочки и тематические модели. | Лукашевич Н.В. (НИВЦ МГУ) | Презентация | 
| 8 ноября |  — Workshop по BigARTM: продолжение
 — Разбор статьи про ембединги для перевода  |  — Мурат Апишев
 — Татьяна Савельева  | Презентация | 
| 15 ноября | Поиск: свежесть, блендеры, поисковые подсказки | Алексей Шаграев (Яндекс) | Презентация | 
| 22 ноября | Основы суммаризации и именования тем | Арина Агеева | |
| 29 ноября |  — Применение word embeddings в cross language IR
 — Суммаризация и paraphrasing  |  — Геннадий Штех
 — Анастасия Янина  | — Презентация
 —  | 
| 6 декабря | — Задача Topic Detection and Tracking | Анастасия Фадеева | Презентация | 
| 13 декабря | Многосмысловые векторные представления слов | Артём Попов | Презентация | 

