Машинное обучение (семинары, ВМК МГУ)/2014-2015 год, осень/Лабораторная работа 2

Материал из MachineLearning.

Перейти к: навигация, поиск

Лабораторная работа посвящена освоению работы с решающими деревьями.

Формат отчета: iPython Notebook (.ipynb файл)

Срок сдачи: 14 декабря 2014, 23:59.

Штрафы: за каждый день просрочки из оценки вычитается 0.2 балла.

Данные

В задании мы будем работать с данными о пассажирах Титаника.

В столбце Survived записано, выжил пассажир или нет. Описание остальных признаков:

pclass: Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)

name: Name

sex: Sex

age: Age

sibsp: Number of Siblings/Spouses Aboard

parch: Number of Parents/Children Aboard

ticket: Ticket Number

fare: Passenger Fare

cabin: Cabin

embarked: Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)

Задание

Скачайте файл с данными: файл. Прочитайте его в python с помощью пакета pandas.
Полезные функции: pandas.read_csv
Возьмите в качестве целевой переменной столбец Survived, в качестве признаков - столбцы Age и Fare.
Примеры конструкций: target = train['Survived'].values; features = train[ ['Age', 'Fare'] ].as_matrix()
Сколько среди признаков отсутствующих значений (NaN)? Замените отсутствующие значения на средние величины этих признаков.
Полезные функции: numpy.isnan, numpy.nanmean
Разбейте выборку на обучение и контроль в соотношении 70:30.
Обучите решающее дерево с параметрами по умолчанию. Какую точность дает данное дерево на контроле? Визуализируйте разделяющую поверхность.
Полезные функции: sklearn.tree.DecisionTreeClassifier, sklearn.metrics.accuracy_score
Выполните предыдущий пункт для разных значений глубины дерева и минимального числа объектов в листе (параметры max_depth и min_samples_leaf). Как эти параметры влияют на вид разделяющей поверхности?
Реализуйте бинарное кодирование категориальных признаков. Если у признака N возможных значений, то ему в соответствие ставится N бинарных признаков, каждый из которых соответствует одному значению исходного признака. На каждом объекте единице должен равняться строго один из них. Примените такое кодирование к столбцам Pclass, Sex, Cabin и Embarked, добавьте результат к признакам. Удается ли с помощью новых признаков повысить качество классификации?

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%D1%8B%2C_%D0%92%D0%9C%D0%9A_%D0%9C%D0%93%D0%A3%29/2014-2015_%D0%B3%D0%BE%D0%B4%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_2»

Машинное обучение (семинары, ВМК МГУ)/2014-2015 год, осень/Лабораторная работа 2

Материал из MachineLearning.

Данные

Задание

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты