Стратификация
Материал из MachineLearning.
Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:
- генеральная совокупность состоит из элементов
- генералльная совокупность разделена на групп, называемых стратами или слоями
- каждый элемент совокупности принадлежит одной и только одной страте
- известно количество наблюдений внутри каждой страты
- исследователь получает вероятность выборки из каждой страты
В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.
Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.
- Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
- Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
- Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
- Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором
Преимущества
- стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
- в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
- с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
- есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;
Недостатки
- административные трудности, сложно организовать на практике;
- трудности в определении каждой страты;
- чтобы проанализировать результаты потребуется больше усилий;
Пропорциональный и непропорциональный выбор
Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.
Пропорциональный выбор
Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.
Объясним на примере: Допустим, что нам нужно выбрать 100 школьников из школы с общим количеством учащихся,равным 2000. Тогда доля отбора составит 1 из 20. Также мы можем поделить всех детей по возрасту и полу, зная разбиение, можно отбирать количество людей из каждой страты по выбранной доле. Более наглядно можно увидеть в таблице
Пол/возраст | Количество | Значение, полученное согласно доле отбора | Выбранное количество | Доля учеников в выбранной выборке |
---|---|---|---|---|
Мальчики, младше 6 лет | 169 | 8.45 | 8 | 0.0473 |
Девочки, младше 6 лет | 147 | 7.35 | 7 | 0.0476 |
Мальчики в возрасте 7-9 лет | 194 | 9.7 | 10 | 0.0515 |
Девочки в возрасте 7-9 лет | 213 | 10.65 | 11 | 0.0516 |
Мальчики в возрасте 10 лет | 177 | 8.85 | 9 | 0.0508 |
Девочки в возрасте 10 лет | 198 | 9.9 | 10 | 0.0510 |
Всего | 1098 | 54.9 | 55 | 0.0501 |
Таким образом, можно заметить, что доли отбора из каждой страты практически не различаются между собой.
Плюсы:
- Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
- Точность увеличивается с улучшением однородности внутри каждой страты
- Улучшение точности относится ко всем параметрам исследования
Disproportionate stratification. With disproportionate stratification, the sampling fraction may vary from one stratum to the next. При непропорциональном выборе доля отбора может
The precision of the design may be very good or very poor, depending on how sample points are allocated to strata. The way to maximize precision through disproportionate stratification is discussed in a subsequent lesson (see Statistics Tutorial: Sample Size Within Strata). If variances differ across strata, disproportionate stratification can provide better precision than proportionate stratification, when sample points are correctly allocated to strata. With disproportionate stratification, the researcher can maximize precision for a single important survey measure. However, gains in precision may not accrue to other survey measures.