Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3
Материал из MachineLearning.
м |
м |
||
Строка 1: | Строка 1: | ||
- | |||
- | |||
- | |||
- | |||
===Данные антропометрии===<!---body.xlsx---> | ===Данные антропометрии===<!---body.xlsx---> | ||
[[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]] | [[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]] | ||
Строка 45: | Строка 41: | ||
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе. | Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе. | ||
::Тюрин: какими характеристиками вина определяется содержание алкоголя? | ::Тюрин: какими характеристиками вина определяется содержание алкоголя? | ||
+ | |||
+ | ===Клетки опухолей груди===<!---breast cancer.xls---> | ||
+ | [[Изображение:92_6682.gif|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]] | ||
+ | 357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака. | ||
+ | ::Козлов: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков, дать интерпретацию коэффициентов. | ||
+ | |||
+ | ===Оптимальные условия размножения штаммов золотистого стафилококка=== <!---Staphylococcus aureus.txt---> | ||
+ | При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма. | ||
+ | ::Чистяков: построить функцию, предсказывающую итоговое суммарное число КОЕ бактерий по типу штамма, времени выдержки, температуре и концентрации триптона в растворе, и определить по ней оптимальные условия размножения стафилококка разных штаммов. | ||
= Ссылки = | = Ссылки = |
Версия 17:50, 27 марта 2015
Данные антропометрии
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
- Шапулин: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Пожертвования на благотворительность
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
- Лисяной: какие факторы влияют на размер пожертвования?
Преступность и демографические характеристики
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
- Славнов: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.
Кардиотокография
Кардиотокография — диагностическая техника, фиксирующая сердцебиение плода и тонус матки и позволяющая оценить состояние эмбриона. Непосредственный результат наблюдений интерпретировать крайне сложно. Чтобы облегчить задачу диагностики, результаты кардиотокографии 1831 эмбрионов были классифицированы опытными специалистами на нормальные и патологические, а на основе показаний прибора было сгенерировано 22 признака.
- Апишев: построить функцию, определяющую вероятность наличия патологии по описанию кардиотокограммы, оценить вклад признаков.
Солнечная активность
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
- Готман: построить модель, по свойствам участка предсказывающую суммарное число вспышек в последующие 24 часа, дать интерпретацию коэффициентов.
Генетически модифицированные мыши с синдромом Дауна
Синдром Дауна — геномная патология, характеризующаяся наличием дополнительной копии генетического материала по 21-й хромосоме. В целях исследования болезни Дауна была создана популяция мышей с внедрённой копией одного из участков 21-й хромосомы человека. Первому поколению мышей внедрялся один из четырёх участков, затем они скрещивались с немодифицированными мышами, и внедрённый участок мог передаваться потомкам. Все они оказались слепыми, поэтому невозможно было провести прямую проверку уровня их интеллекта. Для 500 особей известны: наименование внедрённого участка хромосомы (A=141G6; B=152F7; C=230E8; D=285E6), номер линии мышей (мыши, произошедшие от одной и той же трансгенной особи, относятся к одной линии), пол особи, вес, возраст, в котором он был измерен, номер клетки, в которой жила особь, а также индикатор содержания в её ДНК человеческого материала.
- Дойков: люди, страдающие болезнью Дауна, более склонны к ожирению; справедливо ли это для генетически модифицированных мышей? Исследовать различия с учётом всех остальных факторов.
Использование велопроката в Вашингтоне
Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.
- Колмаков: построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?
Открытие депозита
Имеются результаты обзвона 4119 клиентов португальского банка, которым предлагалось завести депозит. Известны социально-демографические характеристики клиентов, история предыдущих коммуникаций, социально-экономические показатели на момент совершения звонка.
- Сендерович: какие признаки определяют готовность клиента открыть депозит по результатам обзвона?
Биоразлагаемость молекул
1055 химических молекул описаны с помощью 41 признака (число атомов кислорода, нитратных групп, донорных связей с водородом, потенциал ионизации и т.д.); 355 из них биоразложимы.
- Лукашкина: какие свойства молекул влияют на их биоразлогаемость?
Вкус португальского вина
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
- Тюрин: какими характеристиками вина определяется содержание алкоголя?
Клетки опухолей груди
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
- Козлов: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков, дать интерпретацию коэффициентов.
Оптимальные условия размножения штаммов золотистого стафилококка
При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма.
- Чистяков: построить функцию, предсказывающую итоговое суммарное число КОЕ бактерий по типу штамма, времени выдержки, температуре и концентрации триптона в растворе, и определить по ней оптимальные условия размножения стафилококка разных штаммов.