Участник:Riabenko/tmp

Материал из MachineLearning.

< Участник:Riabenko(Различия между версиями)
Перейти к: навигация, поиск
м
Текущая версия (19:11, 25 сентября 2018) (править) (отменить)
м
 
(17 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
===Засеивание облаков и уровень осадков===
 
-
Исследовалось воздействие засеивания облаков на количество осадков. Измерения проводились в течение 108 периодов на пяти участках земли в Тасмании&nbsp;— участки обозначены в файле как западный, восточный, южный, северный и северо-восточный. В выборке содержатся данные об уровне осадков (в миллиметрах) на каждом из пяти участков, о времени года, к которому относится период, и о том, проводилось ли засеивание. <!---cloudseeding.txt--->
 
-
::: проверить, как засеивание облаков повлияло на уровень осадков отдельно по каждому из пяти экспериментальных участков. Одинаково ли проявляется эффект засеивания на каждом из них, или, возможно, он как-то зависит от исходного уровня осадков на участке?
 
-
 
-
=== Размер яиц кукушки ===
 
-
[[Изображение:Cuckoo eggs.jpg|200px|thumb|Яйца разных видов кукушки.]]
 
-
Известно, что кукушки откладывают яйца в гнёзда других птиц. Даны длины 115 яиц кукушки, найденных в гнёздах птиц 6 видов. <!---cuckoo.txt --->
 
-
::: как размер яйца зависит от вида птицы, в чьём гнезде оно было найдено?
 
-
 
-
=== Обучение родителей воспитанию детей ===
 
-
975 родителей участвовало в программе обучения воспитанию. Было проведено три опроса, в ходе которых родители отвечали на вопрос: "За последние несколько недель обращались ли дети к вам с проблемой или вопросом, который их беспокоил?" Первый опрос был проведён до начала обучения, второй&nbsp;— сразу после, и третий&nbsp;— по прошествии 6-8 недель после окончания обучения. Известен также уровень образования родителя. <!--- education.txt --->
 
-
::: стали ли родители больше общаться с детьми в результате обучения? Проанализировать с учётом уровня образования родителей.
 
-
 
-
 
-
 
-
 
-
 
-
 
-
 
-
 
-
 
-
 
-
===Пожертвования на благотворительность===<!---charity.xlsx--->
 
-
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
 
-
::: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
 
-
 
-
===Надёжность шарикоподшипников===<!---bearing.xlsx--->
 
-
Мерой надёжности шарикоподшипников служит величина <tex>L_{10}</tex>&nbsp;— максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина <tex>L_{10}</tex>.
 
-
::: построить функцию, оценивающую <tex>L_{10}</tex> по имеющимся признакам, рассчитать точность оценки.
 
-
 
-
===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->
 
-
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
 
-
::: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки, оценить значимость каждого фактора.
 
-
::: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник; оценить значимость каждого фактора.
 
-
 
-
===Солнечная активность===<!---solar flares.xls--->
 
-
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
 
-
::: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа, дать интерпретацию коэффициентов.
 
-
 
-
===Преступность и демографические характеристики===<!---crimes.xlsx--->
 
-
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
 
-
::: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
 
-
 
-
===Диагностика заболеваний позвоночника===<!---spine.csv--->
 
-
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
 
-
::: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
 
-
 
-
===Клетки опухолей груди===<!---breast cancer.xls--->
 
-
[[Изображение:92_6682.gif‎|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]
 
-
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
 
-
::: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
 
-
 
-
=== Вакцина против вируса папилломы человека === <!---gardasil.xls --->
 
-
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс&nbsp;— три укола в течение года&nbsp;— был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.
 
-
::: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.
 
-
 
-
===Ценообразование бриллиантов=== <!---diamonds.txt--->
 
-
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет&nbsp;— буквой D, менее чистые&nbsp;— буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA&nbsp;— Gemmological Institute of America, IGI&nbsp;— International Gemmological Institute, HRD&nbsp;— Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
 
-
::: существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
 
-
 
-
===Использование велопроката в Вашингтоне=== <!---bikeshares.xls--->
 
-
Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков.
 
-
::: построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?
 
-
 
-
===Эффективность тромболитической терапии===<!---cardio.xls--->
 
-
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
 
-
::: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
 
-
::: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
 
-
 
-
===Продажи платьев===<!--- aliexpress_dress_data.csv--->
 
-
Имеются данные по продажам 479 платьев на сайте aliexpress.com за полтора месяца осени 2013 года. Для каждого из платьев известны также стиль, ценовая категория, рейтинг, размер, сезон, ряд характеристик внешнего вида и индикатор участия в программе рекомендаций.
 
-
::: оценить влияние рейтинга товаров на продажи с учётом всех остальных факторов.
 
-
 
-
=== Массовая доля жира в организме === <!---fat.xls--->
 
-
Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т.д.)
 
-
::: построить функцию, оценивающую массовую долю жира по легко измеряемым антропометрическим признакам.
 
-
 
-
 
-
 
-
 
-
 
-
 
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2009|Практические задания для студентов каф. ММП ВМК (2009 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2009|Практические задания для студентов каф. ММП ВМК (2009 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2010|Практические задания для студентов каф. ММП ВМК (2010 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2010|Практические задания для студентов каф. ММП ВМК (2010 год)]]
Строка 91: Строка 9:
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2014 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2014 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015|Практические задания для студентов каф. ММП ВМК (2015 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2015 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ММП|Практические задания для студентов каф. ММП ВМК (2016 год)]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2016 год)]]
 +
 +
<tex>
 +
\frac{1}{\sum_i { N_{X_i}}} \left(\sum_i { N_{X_i} \mu_{X_i}}\right) +1.96 \sqrt{\frac{1}{\sum_i {N_{X_i} - 1}} \left( \sum_i { \left[(N_{X_i} - 1) \sigma_{X_i}^2 + N_{X_i} \mu_{X_i}^2\right] } - \left[\sum_i {N_{X_i}}\right]\mu_X^2 \right) }
 +
</tex>

Текущая версия


\frac{1}{\sum_i { N_{X_i}}} \left(\sum_i { N_{X_i} \mu_{X_i}}\right) +1.96  \sqrt{\frac{1}{\sum_i {N_{X_i} - 1}} \left( \sum_i { \left[(N_{X_i} - 1) \sigma_{X_i}^2 + N_{X_i} \mu_{X_i}^2\right] } - \left[\sum_i {N_{X_i}}\right]\mu_X^2 \right) }

Личные инструменты