Участник:Riabenko/tmp

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 12: Строка 12:
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
::: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
::: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
-
 
-
===Солнечная активность===<!---solar flares.xls--->
 
-
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
 
-
::: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
 
-
::: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.
 
===Преступность и демографические характеристики===<!---crimes.xlsx--->
===Преступность и демографические характеристики===<!---crimes.xlsx--->
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
::: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
::: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
-
::: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
 
::: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
::: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
Строка 32: Строка 26:
::: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
::: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
::: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
::: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
-
 
-
===Вкус португальского вина===<!---wine.xlsx--->
 
-
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
 
-
::: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
 
-
::: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.
 
===Состав бетона===<!---concrete.xlsx--->
===Состав бетона===<!---concrete.xlsx--->
Строка 45: Строка 34:
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
-
::: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
 
::: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
::: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
Строка 52: Строка 40:
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
::: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
::: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
-
::: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 
::: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый&nbsp;— женщина, и доверительный интервал для этой вероятности.
::: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый&nbsp;— женщина, и доверительный интервал для этой вероятности.
===Диагностика заболеваний позвоночника===<!---spine.csv--->
===Диагностика заболеваний позвоночника===<!---spine.csv--->
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
-
::: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
 
::: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
::: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
-
 
-
===Ценообразование бриллиантов=== <!---diamonds.txt--->
 
-
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет&nbsp;— буквой D, менее чистые&nbsp;— буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA&nbsp;— Gemmological Institute of America, IGI&nbsp;— International Gemmological Institute, HRD&nbsp;— Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
 
-
::: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
 
-
::: существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
 
-
 
-
===Клетки опухолей груди===<!---breast cancer.xls--->
 
-
[[Изображение:92_6682.gif‎|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]
 
-
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
 
-
::: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
 
===Стоимость подержанных автомобилей=== <!---cars.xls--->
===Стоимость подержанных автомобилей=== <!---cars.xls--->
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
::: построить модель стоимости автомобиля по данному набору признаков.
::: построить модель стоимости автомобиля по данному набору признаков.
-
 
-
=== Вакцина против вируса папилломы человека ===
 
-
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. <!---gardasil.xls --->
 
-
::: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.
 
-
 
-
 
-
= Ссылки =
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]
 
-
* [[Участник:Riabenko|Контакты для отправки заданий]]
 
-
<references/>
 
-
 
-
[[Категория:Учебные курсы]]
 

Версия 21:21, 11 ноября 2014

Содержание

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}.

построить функцию, оценивающую L_{10} по имеющимся признакам, рассчитать точность оценки.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.

Лесные пожары в парке Монтезинью

Парк Монтезинью, разбиение на зоны.
Парк Монтезинью, разбиение на зоны.

Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).

построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.

Линька крабов

У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.

построить модель изменения размеров панциря с учётом всех факторов.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.

Состав бетона

Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.

построить функцию, оценивающую растекание бетона по его составу.
построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.

Диагностика заболеваний позвоночника

Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.

построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.

Стоимость подержанных автомобилей

Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.

построить модель стоимости автомобиля по данному набору признаков.
Личные инструменты