Стратификация
Материал из MachineLearning.
Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:
- генеральная совокупность состоит из элементов
- генералльная совокупность разделена на групп, называемых стратами или слоями
- каждый элемент совокупности принадлежит одной и только одной страте
- известно количество наблюдений внутри каждой страты
- исследователь получает вероятность выборки из каждой страты
В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.
Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.
- Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
- Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
- Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
- Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором
Преимущества
- стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
- в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
- с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
- есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;
Недостатки
- административные трудности, сложно организовать на практике;
- трудности в определении каждой страты;
- чтобы проанализировать результаты потребуется больше усилий;
Пропорциональный и непропорциональный выбор
Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.
Пропорциональный выбор
Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.
Объясним на примере: Рассмотрим состав работников компании
Сотрудники | Количество |
---|---|
Мужчины, работающие на полный день | 90 |
Мужчины, работающие на неполный день | 18 |
Женщины, работающие на полный день | 9 |
Женщины, работающие на неполный день | 63 |
Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%), 4 мужчины, имеющих полставки и т.д.
Плюсы:
- Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
- Точность увеличивается с улучшением однородности внутри каждой страты
- Улучшение точности относится ко всем параметрам исследования