Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Riabenko (Обсуждение | вклад)
(Новая: ===Пожертвования на благотворительность===<!---charity.xlsx---> Благотворительная организация разослала 4268 пис...)
К следующему изменению →

Версия 20:55, 24 марта 2015

Содержание

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

Лисяной: какие факторы влияют на размер пожертвования?

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

Славнов: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.

Генетически модифицированные мыши с синдромом Дауна

Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).
Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).

Синдром Дауна — геномная патология, характеризующаяся наличием дополнительной копии генетического материала по 21-й хромосоме. В целях исследования болезни Дауна была создана популяция мышей с внедрённой копией одного из участков 21-й хромосомы человека. Первому поколению мышей внедрялся один из четырёх участков, затем они скрещивались с немодифицированными мышами, и внедрённый участок мог передаваться потомкам. Все они оказались слепыми, поэтому невозможно было провести прямую проверку уровня их интеллекта. Для 500 особей известны: наименование внедрённого участка хромосомы (A=141G6; B=152F7; C=230E8; D=285E6), номер линии мышей (мыши, произошедшие от одной и той же трансгенной особи, относятся к одной линии), пол особи, вес, возраст, в котором он был измерен, номер клетки, в которой жила особь, а также индикатор содержания в её ДНК человеческого материала.

Дойков: люди, страдающие болезнью Дауна, более склонны к ожирению; справедливо ли это для генетически модифицированных мышей? Исследовать различия с учётом всех остальных факторов.

Использование велопроката в Вашингтоне

Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.

Колмаков: построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?

Открытие депозита

Имеются результаты обзвона 4119 клиентов португальского банка, которым предлагалось завести депозит. Известны социально-демографические характеристики клиентов, история предыдущих коммуникаций, социально-экономические показатели на момент совершения звонка.

Сендерович: какие признаки определяют готовность клиента открыть депозит по результатам обзвона?

Биоразлагаемость молекул

1055 химических молекул описаны с помощью 41 признака (число атомов кислорода, нитратных групп, донорных связей с водородом, потенциал ионизации и т.д.); 355 из них биоразложимы.

Лукашкина: какие свойства молекул влияют на их биоразлогаемость?

Ссылки

Личные инструменты