Машинное обучение (РЭУ)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(N3 - Поиск наилучшей модели для оценки съедобности грибов)
(N4 - Предсказание, откликнется ли клиент на новую услугу банка)
Строка 35: Строка 35:
===N4 - Предсказание, откликнется ли клиент на новую услугу банка===
===N4 - Предсказание, откликнется ли клиент на новую услугу банка===
 +
 +
====Срок: до 24 апреля ====
 +
Вам необходимо добиться максимально возможной точности по кросс валидации. Вам нужно подобрать параметр K и метрику для метода ближайших соседей, минимальное число объектов в листе и impurity function для дерева решений и параметр регуляризации C (рекомендуется перебирать C=10**-5,10**-4,...10**5), а также тип регуряризации (L1/L2) для логистической регресии. После чего результаты оформить в виде таблицы - для какого метода какие параметры по какой сетке значений перебирались, какие значения параметров оказались наилучшими и какой метод в целом оказался самым лучшим. Мне нужно прислать только ipynb файл c таблицей результатов и кодом. Естественно, все дискретные признаки вначале необходимо заменить их one-hot-encoding преобразованиями и проверить - добавление дискретных признаков улучшает точность или нет.
[[Media:Bank_offering_dataset.zip‎|скачать задание и данные]]
[[Media:Bank_offering_dataset.zip‎|скачать задание и данные]]

Версия 17:34, 18 апреля 2016


Содержание

Краткое описание

Курс ведется для магистров РЭУ им.Г.В.Плеханова. В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения. Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений. От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.

Задания

N1 - Проверка работы метода K-NN

Срок: до 14 февраля.

скачать задание

N2 - Применение метода K-NN для распознавания цифр

Срок: до 14 февраля.

скачать задание

N3 - Поиск наилучшей модели для оценки съедобности грибов

Срок: до 24 апреля.

скачать задание и данные

Необходимо: разработать модель, дающую 100% точность на кросс-валидации и отослать мне ipynb файл кода и файл прогнозов для тестового множества в формате - как указано в файле.

Помощь по заданию:

Пример преобразования признаков и подбора параметров модели для другого датасета.

Для работы демонстрационного примера и выполнения задания понадобятся полезные модули отсюда. Главным образом - модуль feature transformations.py, содержащий one-hot и вероятностное кодирование признаков.

N4 - Предсказание, откликнется ли клиент на новую услугу банка

Срок: до 24 апреля

Вам необходимо добиться максимально возможной точности по кросс валидации. Вам нужно подобрать параметр K и метрику для метода ближайших соседей, минимальное число объектов в листе и impurity function для дерева решений и параметр регуляризации C (рекомендуется перебирать C=10**-5,10**-4,...10**5), а также тип регуряризации (L1/L2) для логистической регресии. После чего результаты оформить в виде таблицы - для какого метода какие параметры по какой сетке значений перебирались, какие значения параметров оказались наилучшими и какой метод в целом оказался самым лучшим. Мне нужно прислать только ipynb файл c таблицей результатов и кодом. Естественно, все дискретные признаки вначале необходимо заменить их one-hot-encoding преобразованиями и проверить - добавление дискретных признаков улучшает точность или нет.

скачать задание и данные

Помощь по заданию:

Пример преобразования признаков и подбора параметров модели для другого датасета.

Для работы демонстрационного примера и выполнения задания понадобятся полезные модули отсюда. Главным образом - модуль feature transformations.py, содержащий one-hot и вероятностное кодирование признаков.

N5 - Определение зарплаты по описанию вакансии в интернете

Срок: до 15 мая.

Участвовать

Успеваемость

Выполненность домашних работ

Лекции

Введение

Метод ближайших соседей

Туториалы

Полезные ссылки

Машинное обучение

Python

Личные инструменты