Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/3
Материал из MachineLearning.
Содержание |
Данные антропометрии
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
- Зиннурова: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Вкус португальского вина
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
- Шадриков: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
Внешний вид и привлекательность самок мечехвостов
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
- Арбузова: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки, оценить значимость каждого фактора.
Солнечная активность
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
- Рыжков: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа, дать интерпретацию коэффициентов.
Преступность и демографические характеристики
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
- Петров: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
Диагностика заболеваний позвоночника
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
- Антипов: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
Клетки опухолей груди
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
- Подоприхин: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
Вакцина против вируса папилломы человека
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.
- Ульянов: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.