Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015
Материал из MachineLearning.
(→Моя первая научная статья) |
(→Задача 8) |
||
Строка 476: | Строка 476: | ||
* '''Решение''': Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции. | * '''Решение''': Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции. | ||
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике. | * '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике. | ||
- | * * '''Консультант:''' Анна Варфоломеева | + | * * '''Консультант:''' Анна Варфоломеева, Олег Бахтеев |
=== Задача 9 === | === Задача 9 === |
Версия 17:09, 25 февраля 2015
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.
- Описание курса
- Результаты предыдущего курса
- Требования к слушателям
- Короткая ссылка на эту страницу: bit.ly/1y5lM2T
Выложен разбор задач по Матлабу (ДЗ-1), pdf |
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | ДЗ-1 | ДЗ-2 (Номер задачи) | Буквы | Сумма | Оценка |
---|---|---|---|---|---|---|---|---|
Газизуллина Римма (пример) | Прогнозирование объемов железнодорожных грузоперевозок по парам веток | [1], pdf | Стенина Мария | 4 | 42 | [MF]TAI+L+SBR+CV+T>DEH(J) | 16 | 10 |
Бернштейн Юлия | 1 | 3 (8) | ||||||
Бочкарев Артем | 2 | 2 (7) | ||||||
Володин Сергей | 3.5 | 3 (26) | ||||||
Гераськин Иван | 0 | 0 | ||||||
Гончаров Алексей | 1.5 | 1 (4) | ||||||
Двинских Дарина | 0.5 | 3 (7) | ||||||
Жариков Илья | 3.5 | 3 (5) | ||||||
Задаянчук Андрей | 2 | 0 (17) | ||||||
Златов Александр | 1.5 | 3 (14) | ||||||
Исаченко Роман | 3.5 | 3 (14) | ||||||
Кононова Александра | 2.5 | 3 (4) | ||||||
Нейчев Радослав | 1 | 3 (9) | ||||||
Подкопаев Александр | 3.5 | 3 (11) | ||||||
Решетова Дарья | 2.5 | 3 (10) | ||||||
Смирнов Евгений | 1 | 1 (4) | ||||||
Соломатин Иван | 3 (9) | |||||||
Сухарева Анжелика | 0.5 | |||||||
Черных Владимир | 3.5 | 3 (4) | ||||||
Шишковец Светлана | 3.5 | 2 (9) | ||||||
Болдырева Анна | 2 | 1 (11) |
Расписание
Дата | ДЗ | Тема лекции | Результат для обсуждения | Код | |
Февраль | 12 | Вводная лекция. | Задано ДЗ-1. | -- | |
19 | 1 | Начало, демонстрация интерфейсов. Выбор задачи пробного программирования | Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. | -- | |
Дата | ДЗ | Что делаем | Результат для обсуждения | Код | |
26 | 2 | Решить пробную задачу, написать код. Выбор задачи | Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. | Test | |
Март | 5 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. | Abstract, Introduction, Literature |
12 | 4 | Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. | Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). | Statement, Basic code, Report | |
19 | 5 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
26 | 6 | Описание алгоритма. | Алгоритмическая часть статьи (второй / третий раздел). | Theory | |
Апрель | 2 | 7 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». | Document |
9 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error | |
16 | 8 | Контрольная точка — показ статьи в целом. | Доработанная статья. | сHeck | |
23 | 9 | Доклады и обсуждение. | Статья подана в журнал. | Show, Journal |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
Задачи
Шаблон описания научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Список проектов
Задача 1
- Название: Построение интегрального индикатора по многоиндексной матрице оценок нескольких экспертов
- Задача: Дана многомерная матрица экспертных оценок (эксперт-критерий-объект), выполненная в ранговых шкалах. В матрице допускается существенное количество пропущенных значений. Эксперты упорядочены по уровню значимости. Каждый эксперт также может указать его мнение о важности каждого критерия. Требуется построить интегральный индикатор по данной матрице. Алгоритм должен быть устойчив к большому количеству пропущенных данных. Добавление: требуется решить задачу выбора признаков, признаки принимают значения из разномощных шкал.
- Данные: таблица с оценками экспертов компаний, предлагающих платежные сервисы
- Литература:
- http://dimacs.rutgers.edu/~alantha/papers2/acn05conf.pdf - Aggregating Inconsistent Information: Ranking and Clustering
- http://virtual.ihst.ru/sumkin/Sumkin-Weighted-rankings-preprint.pdf - The Resulting Weighted Ranking
- http://strijov.com/papers/Kuznetsov-Strijov2013Concordance.pdf - Methods of expert estimations concordance for integral quality estimation
- http://strijov.com/papers/Medvednikova2014POF.pdf - Instance ranking using partially ordered sets of expert estimations
- Базовой алгоритм: Парето-оптимальный фронт (см. последний пункт литературы)
- Решение: Предлагается сравнивать медиану кемени (требуется модифицировать для поставленной задачи) с базовым алгоритмом
- Новизна: Задача предполагает сильную вариативность исходных данных для алгоритма и является обобщением многих классических задач Preference Learning и Decision Making.
- Консультант: Олег Бахтеев.
Задача 2
- Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
- Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
- Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
- Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [2] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
- Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
- Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
- Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
- Консультант: Олег Бахтеев.
Задача 3
- Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
- Задача:
- Данные: Синтетические данные и тесты.
- Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
- Решение:
- Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
- Консультант: Александр Адуенко.
Задача 4
- Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
- Задача: постановка задачи из [3] формула (32)
- Данные: временные ряды с ценами на электроэнергию.
- Литература:
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
- Базовой алгоритм:
- Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
- Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
- Консультант: Александр Катруца.
Задача 5
- Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
- Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
- Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
- Литература
- Описание прикладной задачи и техническое задание: по запросу.
- Базовой алгоритм: Преобразование Хафа [10], обсуждается.
- Консультант: И.А. Матвеев
Задача 6
- Название:
- Задача:
- Данные:
- Литература:
- Базовой алгоритм:
- Решение:
- Новизна:
- Консультант:
Задача 7
- Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
- Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
- Данные: временные ряды цен на электроэнергию
- Литература:
- Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
- Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
- Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
- Консультант: Александр Катруца
Задача 8
- Название: Структурное обучение при порождении моделей
- Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
- Данные: Подколлекции TREC.
- Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
- Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
- Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
- Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
- * Консультант: Анна Варфоломеева, Олег Бахтеев
Задача 9
- Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм
- Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
- Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
- Литература:
- Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
- Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
- Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
- Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
- Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
- Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
- Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
- Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
- Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
- Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
- Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
- Консультант: Ишкина Шаура
Задача 10
- Название:
- Задача:
- Данные:
- Литература:
- Базовой алгоритм:
- Решение:
- Новизна:
- Консультант:
Планы на следующий год:
- Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.