Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год
Материал из MachineLearning.
(→Расписание) |
|||
(96 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | + | Семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети. | |
- | + | {{stop|'''Архивная страница.''' Эти семинары уже давно прошли. Будьте внимательны :) | |
- | + | {{main|Методы анализа текстов (семинар, К.В.Воронцов)}} | |
+ | }} | ||
- | + | == Контакты == | |
- | + | topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты. | |
- | + | artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе. | |
- | + | anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк). | |
- | + | https://goo.gl/rc4grq — короткая ссылка на эту страницу. | |
- | + | https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров | |
- | https:// | + | == Расписание (весна-2018) == |
+ | |||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Дата | ||
+ | ! Тема | ||
+ | ! Докладчик | ||
+ | ! Материалы | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 7 февраля | ||
+ | | — Как ориентироваться в NLP трендах? | ||
+ | — Обзор основных подходов построения диалоговых систем | ||
+ | | — Артём Попов | ||
+ | — Николай Кругликов | ||
+ | | [https://drive.google.com/open?id=17fyecGxq4N7mGadOGBtaT0pILDklEJfs презентация] | ||
+ | [https://drive.google.com/open?id=1LEOZ51mdNqQ8dUIys-FBcnfuDEiEAkT4 презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 14 февраля | ||
+ | | — Применение сегментной структуры документов в тематической модели | ||
+ | | — Николай Скачков | ||
+ | | [https://drive.google.com/open?id=1IiKCDcNj0Xr9Rz4kE3RB46v5Z_taJ5Vg презентация] [https://drive.google.com/open?id=1_VPVmzLQf6HdLb3zhaQ6xjfBVsm-H-2Q теория (первые 4 раздела)] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 21 февраля | ||
+ | | — Мультиязычные эмбеддинги | ||
+ | — Выделение мнений в коллекции новостей | ||
+ | |— Татьяна Савельева | ||
+ | — Таснима Садекова | ||
+ | | [https://drive.google.com/open?id=1XsAjh1ld8Ys5bzZLqK1O4T2croqpiDu- презентация] | ||
+ | [https://drive.google.com/open?id=1Lf-j9AnFT5BaOuRUaNoVd-IxsBkhDLYF презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 28 февраля | ||
+ | | — Автоматический перевод естественного языка в язык SQL | ||
+ | — Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику) | ||
+ | | — Дарина Дементьева | ||
+ | — Амир Бакаров | ||
+ | | [https://drive.google.com/open?id=1Z4MnuQ2KMEmDafNdEGVwLz3bcjjUz7qI презентация] | ||
+ | [https://drive.google.com/open?id=1pDK8jqz5zL-Ubxa-ag7-swTE5uNugtjw презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 7 марта | ||
+ | | Инструменты разработки в помощь исследователю: | ||
+ | — Организованные исследования вне ipynotebook: граф вычислений на luigi | ||
+ | |||
+ | — Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы | ||
+ | |||
+ | — Воспроизведение результатов без боли, зачем исследователю docker и как он работает | ||
+ | | Геннадий Штех | ||
+ | | | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 14 марта | ||
+ | | Интерпретируемость компонент в векторных моделях слов | ||
+ | | Алексей Зобнин | ||
+ | | [https://drive.google.com/open?id=1E14sBCGLdJxTqBz-dKU9Um57a1gsy6qf презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | | 21 марта | ||
+ | | Моделирование языка в задаче построения вопросно-ответной системы | ||
+ | | Дарья Соболева | ||
+ | | [https://drive.google.com/open?id=1nT-Rml8dZmKqki3_7BTpDaqwHnn6w-wi презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 28 марта | ||
+ | | Вся правда об относительных коэффициентах регуляризации в ТМ | ||
+ | | Виктор Булатов | ||
+ | | [https://drive.google.com/open?id=19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 4 апреля | ||
+ | | Отмена семинара | ||
+ | | | ||
+ | | | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 11 апреля | ||
+ | | — Word mover's distance для выявления семантической схожести коротких текстов | ||
+ | — Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe | ||
+ | | — Андрей Чернопятов | ||
+ | — Денис Кирьянов | ||
+ | | В рассылке и в слаке | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 18 апреля | ||
+ | | Оценка качества и улучшение иерархических ARTM моделей | ||
+ | | Антон Белый | ||
+ | | [https://drive.google.com/file/d/1xf-YEL-W6tmAcNYRSEp_DQldW08EzHz9/view?usp=sharing презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 25 апреля | ||
+ | | — Low-rank models for recommender systems with limited preference information | ||
+ | — Темпоральное тематическое моделирование новостных потоков | ||
+ | | — Евгений Фролов | ||
+ | — Анастасия Фадеева | ||
+ | | [https://1drv.ms/b/s!AmD2qFcSt8Mokb0WtwScJ3h5dM3lLw презентация] | ||
+ | [https://drive.google.com/file/d/1GdeOYTalk6UNNb13Ub589QxTDIrvItHa презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 2 мая | ||
+ | | | ||
+ | — Factorization Methods to Train Embeddings in Machine Learning Problems | ||
+ | | | ||
+ | — Александр Фонарёв | ||
+ | | | ||
+ | — [https://arxiv.org/pdf/1502.07838.pdf книга], [https://drive.google.com/open?id=17bbmaBWdowU7Ccyaf5h-pIIaIOzCzz54 слайды] | ||
+ | |||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 16 мая | ||
+ | | Автоматический акцентуатор для русского языка | ||
+ | | Екатерина Черняк | ||
+ | | | ||
+ | |- <!-- Конец записи --> | ||
+ | |} | ||
+ | |||
+ | == Расписание (осень-2017) == | ||
- | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
Строка 39: | Строка 169: | ||
| 6 сентября | | 6 сентября | ||
| Разборы статей: Google Vizier, Exploratory Search | | Разборы статей: Google Vizier, Exploratory Search | ||
- | | Роман Дербаносов | + | | — Роман Дербаносов |
+ | — Дарья Соболева | ||
+ | |||
+ | — Анастасия Янина | ||
|[https://drive.google.com/file/d/0B2cCJQ2_aOwjYW9USTNkTVZ1LW8/view?usp=sharing Презентация про Vizier] | |[https://drive.google.com/file/d/0B2cCJQ2_aOwjYW9USTNkTVZ1LW8/view?usp=sharing Презентация про Vizier] | ||
[https://scholar.google.ru/citations?view_op=view_citation&hl=ru&user=J2pGGuAAAAAJ&sortby=pubdate&citation_for_view=J2pGGuAAAAAJ:i2xiXl-TujoC], Pulp: A system for exploratory search of scientific literature | [https://scholar.google.ru/citations?view_op=view_citation&hl=ru&user=J2pGGuAAAAAJ&sortby=pubdate&citation_for_view=J2pGGuAAAAAJ:i2xiXl-TujoC], Pulp: A system for exploratory search of scientific literature | ||
Строка 55: | Строка 188: | ||
— Особенности ведения прикладных проектов | — Особенности ведения прикладных проектов | ||
| Виктор Кантор | | Виктор Кантор | ||
- | | [https://drive.google.com/ | + | | [https://drive.google.com/file/d/0B2cCJQ2_aOwjZ3NUNGxXY3l3TUU/view?usp=sharing Рекомендательные системы] |
|- | |- | ||
| 27 сентября | | 27 сентября | ||
Строка 90: | Строка 223: | ||
| Workshop по BigARTM: простые и сложные примеры использования. | | Workshop по BigARTM: простые и сложные примеры использования. | ||
| Мурат Апишев | | Мурат Апишев | ||
- | | | + | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjRVR3Q09FQWxVdlU Презентация] |
|- | |- | ||
| 1 ноября | | 1 ноября | ||
| Тезаурусы, лексические цепочки и тематические модели. | | Тезаурусы, лексические цепочки и тематические модели. | ||
| Лукашевич Н.В. (НИВЦ МГУ) | | Лукашевич Н.В. (НИВЦ МГУ) | ||
- | | | + | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjLUVrM282SG5iLTg Презентация] |
|- | |- | ||
| 8 ноября | | 8 ноября | ||
- | | | + | | — Workshop по BigARTM: продолжение |
- | | | + | — Разбор [https://arxiv.org/pdf/1710.04087.pdf статьи про ембединги для перевода] |
- | | | + | | — Мурат Апишев |
+ | — Татьяна Савельева | ||
+ | | [https://drive.google.com/file/d/1ILRTb8f9lWoZtkigqgJKuaKg4ciMtlmF/view?usp=sharing Презентация] | ||
+ | |- <!-- Новая запись --> | ||
|- | |- | ||
| 15 ноября | | 15 ноября | ||
| Поиск: свежесть, блендеры, поисковые подсказки | | Поиск: свежесть, блендеры, поисковые подсказки | ||
| Алексей Шаграев (Яндекс) | | Алексей Шаграев (Яндекс) | ||
- | | | + | | [https://drive.google.com/file/d/1jRefai7G8f6xVAh95eComoeHQpgqgVC7/view?usp=sharing Презентация] |
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 22 ноября | ||
+ | | Основы суммаризации и именования тем | ||
+ | |Арина Агеева | ||
+ | | | ||
+ | [https://drive.google.com/file/d/1aWUrWy8A4k-hz1IFa1eWihA16dja6ZJn/view?usp=sharing Презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 29 ноября | ||
+ | | — Применение word embeddings в cross language IR | ||
+ | — Суммаризация и paraphrasing | ||
+ | | — Геннадий Штех | ||
+ | — Анастасия Янина | ||
+ | |— [https://drive.google.com/file/d/10XC6q_tmKJgucAgrTKxYd9DPcxdCzhcn/view?usp=sharing Презентация] | ||
+ | — | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
+ | |- | ||
+ | | 6 декабря | ||
+ | |— Задача Topic Detection and Tracking | ||
+ | |Анастасия Фадеева | ||
+ | |[https://drive.google.com/file/d/18Vl5bI0Kfsgmkv7hmUk8Z-IvCWqDhkCG/view?usp=sharing Презентация] | ||
+ | |- <!-- Конец записи --> | ||
+ | |- <!-- Новая запись --> | ||
|- | |- | ||
+ | | 13 декабря | ||
+ | | Многосмысловые векторные представления слов | ||
+ | | Артём Попов | ||
+ | | [https://drive.google.com/file/d/1AKsghJcpmogZ5c79FU8lmv3RYjxCwYc3/view?usp=sharing Презентация] | ||
+ | |- <!-- Конец записи --> | ||
|} | |} | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
Архивная страница. Эти семинары уже давно прошли. Будьте внимательны :)
|
Контакты
topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.
artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.
anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).
https://goo.gl/rc4grq — короткая ссылка на эту страницу.
https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров
Расписание (весна-2018)
Дата | Тема | Докладчик | Материалы |
---|---|---|---|
7 февраля | — Как ориентироваться в NLP трендах?
— Обзор основных подходов построения диалоговых систем | — Артём Попов
— Николай Кругликов | презентация |
14 февраля | — Применение сегментной структуры документов в тематической модели | — Николай Скачков | презентация теория (первые 4 раздела) |
21 февраля | — Мультиязычные эмбеддинги
— Выделение мнений в коллекции новостей | — Татьяна Савельева
— Таснима Садекова | презентация |
28 февраля | — Автоматический перевод естественного языка в язык SQL
— Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику) | — Дарина Дементьева
— Амир Бакаров | презентация |
7 марта | Инструменты разработки в помощь исследователю:
— Организованные исследования вне ipynotebook: граф вычислений на luigi — Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы — Воспроизведение результатов без боли, зачем исследователю docker и как он работает | Геннадий Штех | |
14 марта | Интерпретируемость компонент в векторных моделях слов | Алексей Зобнин | презентация |
21 марта | Моделирование языка в задаче построения вопросно-ответной системы | Дарья Соболева | презентация |
28 марта | Вся правда об относительных коэффициентах регуляризации в ТМ | Виктор Булатов | презентация |
4 апреля | Отмена семинара | ||
11 апреля | — Word mover's distance для выявления семантической схожести коротких текстов
— Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe | — Андрей Чернопятов
— Денис Кирьянов | В рассылке и в слаке |
18 апреля | Оценка качества и улучшение иерархических ARTM моделей | Антон Белый | презентация |
25 апреля | — Low-rank models for recommender systems with limited preference information
— Темпоральное тематическое моделирование новостных потоков | — Евгений Фролов
— Анастасия Фадеева | презентация |
2 мая |
— Factorization Methods to Train Embeddings in Machine Learning Problems |
— Александр Фонарёв | |
16 мая | Автоматический акцентуатор для русского языка | Екатерина Черняк |
Расписание (осень-2017)
Дата | Тема | Докладчик | Материалы |
---|---|---|---|
16 августа | Как вылезти из танка? | Анна Потапенко | Про Google и про ACL |
30 августа | Нейросетевые диалоговые системы в iPavlov
Задачи NER (РИС!) и Paraphrasing. | Михаил Бурцев и команда | Три презентации, clickable :) |
6 сентября | Разборы статей: Google Vizier, Exploratory Search | — Роман Дербаносов
— Дарья Соболева — Анастасия Янина | Презентация про Vizier
[1], Pulp: A system for exploratory search of scientific literature [2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling |
13 сентября | Вместо семинара воркшоп в вышке,
нужно зарегистрироваться | ||
20 сентября | — Как устроены рекомендательные системы
— Особенности ведения прикладных проектов | Виктор Кантор | Рекомендательные системы |
27 сентября | — Разбор статьи StarSpace: Emded all the things!
— Как устроены вопросно-ответные системы | — Артем Попов
— Сергей Юдин | статья, презентация |
4 октября | — Проблема определения числа тем в тематических моделях.
— Термодинамический подход к результатам тематического моделирования. | — Константин Воронцов
— Сергей Кольцов | Презентация 1 |
11 октября | Ликбез с формулами: encoder-decoder architecture with attention.
Как это работает на практике: neural machine translation, summarization. | Анна Потапенко | An overview of gradient descent optimization algorithms
Stronger Baselines for Trustable Results in Neural Machine Translation |
18 октября | — Get to the point! Summarization with pointer-generator networks
—Reinforcement learning for weak supervision in NLP | Анна Потапенко | Get to the point |
25 октября | Workshop по BigARTM: простые и сложные примеры использования. | Мурат Апишев | Презентация |
1 ноября | Тезаурусы, лексические цепочки и тематические модели. | Лукашевич Н.В. (НИВЦ МГУ) | Презентация |
8 ноября | — Workshop по BigARTM: продолжение
— Разбор статьи про ембединги для перевода | — Мурат Апишев
— Татьяна Савельева | Презентация |
15 ноября | Поиск: свежесть, блендеры, поисковые подсказки | Алексей Шаграев (Яндекс) | Презентация |
22 ноября | Основы суммаризации и именования тем | Арина Агеева | |
29 ноября | — Применение word embeddings в cross language IR
— Суммаризация и paraphrasing | — Геннадий Штех
— Анастасия Янина | — Презентация
— |
6 декабря | — Задача Topic Detection and Tracking | Анастасия Фадеева | Презентация |
13 декабря | Многосмысловые векторные представления слов | Артём Попов | Презентация |