Участник:Riabenko/tmp

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 2: Строка 2:
Ретроспективное исследование влияния курения на болезнь Альцгеймера включает пациентов с болезнью Альцгеймера, другими формами деменции и другими диагнозами; известны статус курения и пол. <!--- alzheimer.txt --->
Ретроспективное исследование влияния курения на болезнь Альцгеймера включает пациентов с болезнью Альцгеймера, другими формами деменции и другими диагнозами; известны статус курения и пол. <!--- alzheimer.txt --->
::: как курение и пол связаны с различными формами снижения умственной деятельности?
::: как курение и пол связаны с различными формами снижения умственной деятельности?
-
 
-
=== Нарушения ПДД===
 
-
В исследовании влияния обучения подростков вождению на число инцидентов с нарушениями ПДД контрольная группа состоит из 2409 человек. По каждому из них данные собираются на протяжении четырёх лет. <!--- traffic_violation.txt --->
 
-
::: меняется ли в контрольной группе число инцидентов с годами? Если да, то как?
 
=== Прочность промышленных вентиляторов ===
=== Прочность промышленных вентиляторов ===
разрушающий крутящий момент 64 промышленных вентиляторов; для каждого известны тип отверстия, форма барабана и метод соединения. <!--- fans.txt --->
разрушающий крутящий момент 64 промышленных вентиляторов; для каждого известны тип отверстия, форма барабана и метод соединения. <!--- fans.txt --->
::: связан ли разрушающий крутящий момент с характеристиками вентилятора?
::: связан ли разрушающий крутящий момент с характеристиками вентилятора?
-
 
-
=== Годовой заработок ===
 
-
Опрос US Bureau of Labor Statistics 2002 года содержит данные о годовом заработке 55729 участников; известны также их пол (1 = "male", 2 = "female" ), возраст, уровень образования (1 = "no high school", 2 = "some high school", 3 = "high school diploma", 4 = "some college", 5 = "bachelor's degree", 6 = "postgraduate degree") и тип работы (5 = "private sector", 6 = "government", 7 = "self-employed").
 
-
::: оценить влияние образования, пола и типа работы на годовой заработок.
 
-
 
-
=== Дома престарелых Нью-Мексико===
 
-
Для 52 лицензированных домов престарелых Нью-Мексико известны: число коек, суммарное годовое число дней в стационаре и койко-дней (в сотнях), суммарные годовые расходы на уход за пациентами, зарплату медсестёр и инфраструктуру (в сотнях долларов). <!--- nursing_homes.txt --->
 
-
::: есть ли различия между сельскими и городскими домами престарелых? По каким признакам?
 
===Засеивание облаков и уровень осадков===
===Засеивание облаков и уровень осадков===
Строка 40: Строка 28:
::: исследовать, как каждый из признаков по отдельности влияет на уровень продаж.
::: исследовать, как каждый из признаков по отдельности влияет на уровень продаж.
-
=== Внешний вид и привлекательность самок мечехвостов ===
 
-
[[Изображение:horseshoe.jpg‎|200px|thumb|Мечехвосты (Limulus polyphemus).]]
 
-
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников. <!--- horseshoe crab.txt --->
 
-
::: сравнить по всем имеющимся признакам самок, имеющих хотя бы одного спутника, с самками, не имеющими ни одного.
 

Версия 08:36, 25 марта 2015

Содержание

Курение и болезнь Альцгеймера

Ретроспективное исследование влияния курения на болезнь Альцгеймера включает пациентов с болезнью Альцгеймера, другими формами деменции и другими диагнозами; известны статус курения и пол.

как курение и пол связаны с различными формами снижения умственной деятельности?

Прочность промышленных вентиляторов

разрушающий крутящий момент 64 промышленных вентиляторов; для каждого известны тип отверстия, форма барабана и метод соединения.

связан ли разрушающий крутящий момент с характеристиками вентилятора?

Засеивание облаков и уровень осадков

Исследовалось воздействие засеивания облаков на количество осадков. Измерения проводились в течение 108 периодов на пяти участках земли в Тасмании — участки обозначены в файле как западный, восточный, южный, северный и северо-восточный. В выборке содержатся данные об уровне осадков (в миллиметрах) на каждом из пяти участков, о времени года, к которому относится период, и о том, проводилось ли засеивание.

проверить, как засеивание облаков повлияло на уровень осадков отдельно по каждому из пяти экспериментальных участков. Одинаково ли проявляется эффект засеивания на каждом из них, или, возможно, он как-то зависит от исходного уровня осадков на участке?

Размер яиц кукушки

Яйца разных видов кукушки.
Яйца разных видов кукушки.

Известно, что кукушки откладывают яйца в гнёзда других птиц. Даны длины 115 яиц кукушки, найденных в гнёздах птиц 6 видов.

как размер яйца зависит от вида птицы, в чьём гнезде оно было найдено?

Обучение родителей воспитанию детей

975 родителей участвовало в программе обучения воспитанию. Было проведено три опроса, в ходе которых родители отвечали на вопрос: "За последние несколько недель обращались ли дети к вам с проблемой или вопросом, который их беспокоил?" Первый опрос был проведён до начала обучения, второй — сразу после, и третий — по прошествии 6-8 недель после окончания обучения. Известен также уровень образования родителя.

стали ли родители больше общаться с детьми в результате обучения? Проанализировать с учётом уровня образования родителей.

Кассовые сборы кинофильмов

На сайте boxofficemojo.com имеются сведения о мировых кассовых сборах всех кинофильмов, выходивших в США, и студиях, их выпустивших. Рассмотрим данные о фильмах, вышедших в 2013 году. Будем считать крупными киностудии, выпустившие в этом году не менее 10 фильмов.

сравнить средние кассовые сборы вышедших в 2013 году фильмов крупных киностудий в США, по всему миру и суммарно.

Продажи платьев

Имеются данные по продажам 479 платьев на сайте aliexpress.com за полтора месяца осени 2013 года. Для каждого из платьев известны также стиль, ценовая категория, рейтинг, размер, сезон, ряд характеристик внешнего вида и индикатор участия в программе рекомендаций.

исследовать, как каждый из признаков по отдельности влияет на уровень продаж.





Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.

построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}.

построить функцию, оценивающую L_{10} по имеющимся признакам, рассчитать точность оценки.

Данные антропометрии

Некоторые из измеренных характеристик скелета.
Некоторые из измеренных характеристик скелета.

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.

построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки, оценить значимость каждого фактора.
построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник; оценить значимость каждого фактора.

Солнечная активность

Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.

построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа, дать интерпретацию коэффициентов.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.

построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.

Диагностика заболеваний позвоночника

Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.

построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.

Клетки опухолей груди

Результат иммуногистохимического исследования пунктата злокачественной опухоли.
Результат иммуногистохимического исследования пунктата злокачественной опухоли.

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.

оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Вакцина против вируса папилломы человека

Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.

построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.

Ценообразование бриллиантов

Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.

существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?

Использование велопроката в Вашингтоне

Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.

построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.

Продажи платьев

Имеются данные по продажам 479 платьев на сайте aliexpress.com за полтора месяца осени 2013 года. Для каждого из платьев известны также стиль, ценовая категория, рейтинг, размер, сезон, ряд характеристик внешнего вида и индикатор участия в программе рекомендаций.

оценить влияние рейтинга товаров на продажи с учётом всех остальных факторов.

Массовая доля жира в организме

Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т.д.)

построить функцию, оценивающую массовую долю жира по легко измеряемым антропометрическим признакам.




Личные инструменты