Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 1: Строка 1:
 +
===Данные антропометрии===<!---body.xlsx--->
 +
[[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]]
 +
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
 +
::Шапулин: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 +
===Пожертвования на благотворительность===<!---charity.xlsx--->
===Пожертвования на благотворительность===<!---charity.xlsx--->
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Версия 09:10, 25 марта 2015

Содержание

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

Шапулин: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Лисяной: какие факторы влияют на размер пожертвования?

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

Славнов: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.

Кардиотокография

Кардиотокография — диагностическая техника, фиксирующая сердцебиение плода и тонус матки и позволяющая оценить состояние эмбриона. Непосредственный результат наблюдений интерпретировать крайне сложно. Чтобы облегчить задачу диагностики, результаты кардиотокографии 1831 эмбрионов были классифицированы опытными специалистами на нормальные и патологические, а на основе показаний прибора было сгенерировано 22 признака.

Апишев: построить функцию, определяющую вероятность наличия патологии по описанию кардиотокограммы, оценить вклад признаков.

Генетически модифицированные мыши с синдромом Дауна

Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).
Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).

Синдром Дауна — геномная патология, характеризующаяся наличием дополнительной копии генетического материала по 21-й хромосоме. В целях исследования болезни Дауна была создана популяция мышей с внедрённой копией одного из участков 21-й хромосомы человека. Первому поколению мышей внедрялся один из четырёх участков, затем они скрещивались с немодифицированными мышами, и внедрённый участок мог передаваться потомкам. Все они оказались слепыми, поэтому невозможно было провести прямую проверку уровня их интеллекта. Для 500 особей известны: наименование внедрённого участка хромосомы (A=141G6; B=152F7; C=230E8; D=285E6), номер линии мышей (мыши, произошедшие от одной и той же трансгенной особи, относятся к одной линии), пол особи, вес, возраст, в котором он был измерен, номер клетки, в которой жила особь, а также индикатор содержания в её ДНК человеческого материала.

Дойков: люди, страдающие болезнью Дауна, более склонны к ожирению; справедливо ли это для генетически модифицированных мышей? Исследовать различия с учётом всех остальных факторов.

Использование велопроката в Вашингтоне

Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.

Колмаков: построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?

Открытие депозита

Имеются результаты обзвона 4119 клиентов португальского банка, которым предлагалось завести депозит. Известны социально-демографические характеристики клиентов, история предыдущих коммуникаций, социально-экономические показатели на момент совершения звонка.

Сендерович: какие признаки определяют готовность клиента открыть депозит по результатам обзвона?

Биоразлагаемость молекул

1055 химических молекул описаны с помощью 41 признака (число атомов кислорода, нитратных групп, донорных связей с водородом, потенциал ионизации и т.д.); 355 из них биоразложимы.

Лукашкина: какие свойства молекул влияют на их биоразлогаемость?

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.

Тюрин: какими характеристиками вина определяется содержание алкоголя?

Ссылки

Личные инструменты