Участник:Riabenko/tmp

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 1: Строка 1:
-
=== Допустимость наказаний ===
+
===Надёжность шарикоподшипников===<!---bearing.xlsx--->
-
Известно мнение двенадцати родителей о допустимости наказания их детей по результатам оценки в психогенном эксперименте; допустимость выражается в баллах, чем ниже балл, тем менее допустимым участник исследования считает наказание. Имеются результаты о наказании самим родителем, бабушкой и учителем ребёнка. <!--- punishment.txt --->
+
Мерой надёжности шарикоподшипников служит величина <tex>L_{10}</tex>&nbsp;— максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина <tex>L_{10}</tex>.
-
::: как зависит оценка допустимости наказания от наказывающего?
+
::: построить функцию, оценивающую <tex>L_{10}</tex> по имеющимся признакам, рассчитать точность оценки.
-
=== Вакцина против вируса папилломы человека ===
+
===Эффективность тромболитической терапии===<!---cardio.xls--->
-
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. <!---gardasil.xls --->
+
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
-
::: оценить влияние клиники и её расположения на число сделанных пациенткам уколов.
+
::: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
 +
::: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
-
===Размеры черепа древних египтян===
+
===Лесные пожары в парке Монтезинью===<!---forest_fires.csv--->
-
Измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. <!---skulls.txt--->
+
[[Изображение:Park.png‎|200px|thumb|Парк Монтезинью, разбиение на зоны.]]
-
::: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
+
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
 +
::: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
-
=== Условия размножения штаммов золотистого стафилококка===
+
===Солнечная активность===<!---solar flares.xls--->
-
При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма. <!--- Staphylococcus aureus.txt --->
+
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
-
::: одинакова ли зависимость итогового числа КОЕ разных штаммов стафилококка от внешних условий?
+
::: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
 +
::: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.
-
===Продолжительность жизни раковых больных===
+
===Преступность и демографические характеристики===<!---crimes.xlsx--->
-
Выборка состоит из 64 пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. <!--- cancer.txt --->
+
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
-
::: исследовать связь между остаточной продолжительностью жизни и типом рака.
+
::: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
 +
::: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
 +
::: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
-
===Maryland's Pick-3 Lottery===
+
===Линька крабов===<!---crabs.csv--->
-
Даны результаты розыгрыша лотереи Maryland's Pick-3 Lottery за 218 подряд идущих дней. Результатом является трёхзначное число. <!--- lottery.txt --->
+
У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть&nbsp;— в естественной среде обитания; для последних известен также год вылова.
-
::: можно ли считать розыгрыш случайным?
+
::: построить модель изменения размеров панциря с учётом всех факторов.
-
===Эффективность раскройки джинсов===
+
===Пожертвования на благотворительность===<!---charity.xlsx--->
-
Для пяти поставщиков фабрики Levi's в Альбукерке имеются данные по доле материала, попадающего в обрезки; из всех величин вычтена средняя доля обрезков, получающаяся при оптимизации раскройки с помощью компьютера. <!--- jeans.txt--->
+
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
-
::: есть ли различия между поставщиками?
+
::: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
 +
::: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
-
=== Урожайность ячменя ===
+
===Вкус португальского вина===<!---wine.xlsx--->
-
Известна средняя за два года урожайность ячменя пяти разновидностей на каждом из пяти полей. <!--- barley.txt --->
+
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
-
::: как отличается урожайность разновидностей ячменя?
+
::: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
 +
::: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.
 +
 
 +
===Состав бетона===<!---concrete.xlsx--->
 +
Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.
 +
::: построить функцию, оценивающую растекание бетона по его составу.
 +
::: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.
 +
 
 +
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
 +
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
 +
::: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
 +
::: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
 +
 
 +
===Данные антропометрии===<!---body.xlsx--->
 +
[[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]]
 +
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей&nbsp;– легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
 +
::: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 +
::: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 +
::: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый&nbsp;— женщина, и доверительный интервал для этой вероятности.
 +
 
 +
===Диагностика заболеваний позвоночника===<!---spine.csv--->
 +
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
 +
::: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
 +
::: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
 +
 
 +
===Ценообразование бриллиантов=== <!---diamonds.txt--->
 +
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет&nbsp;— буквой D, менее чистые&nbsp;— буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA&nbsp;— Gemmological Institute of America, IGI&nbsp;— International Gemmological Institute, HRD&nbsp;— Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
 +
::: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
 +
::: существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
 +
 
 +
===Клетки опухолей груди===<!---breast cancer.xls--->
 +
[[Изображение:92_6682.gif‎|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]
 +
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
 +
::: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
 +
 
 +
===Стоимость подержанных автомобилей=== <!---cars.xls--->
 +
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
 +
::: построить модель стоимости автомобиля по данному набору признаков.
 +
 
 +
=== Вакцина против вируса папилломы человека ===
 +
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. <!---gardasil.xls --->
 +
::: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.
-
=== Одеяла с электрообогревом ===
 
-
Одеяла с электрообогревом применяются в хирургии для восстановления температуры тела пациента после операции. Имеются четыре вида одеяла: стандартный, b0, и три экспериментальных&nbsp;— b1, b2, b3. Для 41 пациента известно время, за которое нормальная температура тела восстанавливается при использовании одеяла одного из видов. <!--- blanket.txt --->
 
-
::: отличаются ли экспериментальные одеяла от стандартного?
 
-
=== Словарный запас школьников ===
+
= Ссылки =
-
Словарный запас 64 учеников школы при Чикагском университете измерялся в 8, 9, 10 и 11 классах. Известен также пол участников эксперимента. <!--- vocabulary_test.txt --->
+
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
-
::: отличаются ли результаты тестирования словарного запаса девочек и мальчиков? Если да, то в какие моменты?
+
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]
-
::: меняется ли словарный запас со временем? Проанализировать суммарно для всех испытуемых и отдельно для мальчиков и девочек.
+
* [[Участник:Riabenko|Контакты для отправки заданий]]
 +
<references/>
-
===Цифры числа пи ===
+
[[Категория:Учебные курсы]]
-
Даны первые десять тысяч цифр числи пи. <!--- pi10000.txt --->
+
-
::: можно ли сказать, что все цифры встречаются с одинаковой частотой? Есть ли зависимость между подряд идущими цифрами?
+

Версия 17:14, 11 ноября 2014

Содержание

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}.

построить функцию, оценивающую L_{10} по имеющимся признакам, рассчитать точность оценки.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.

Лесные пожары в парке Монтезинью

Парк Монтезинью, разбиение на зоны.
Парк Монтезинью, разбиение на зоны.

Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).

построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.

Солнечная активность

Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.

построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.

Линька крабов

У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.

построить модель изменения размеров панциря с учётом всех факторов.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.

построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.

Состав бетона

Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.

построить функцию, оценивающую растекание бетона по его составу.
построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.

Диагностика заболеваний позвоночника

Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.

построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.

Ценообразование бриллиантов

Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.

построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?

Клетки опухолей груди

Результат иммуногистохимического исследования пунктата злокачественной опухоли.
Результат иммуногистохимического исследования пунктата злокачественной опухоли.

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.

оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Стоимость подержанных автомобилей

Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.

построить модель стоимости автомобиля по данному набору признаков.

Вакцина против вируса папилломы человека

Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.

построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.


Ссылки

Личные инструменты