Стратификация

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 38: Строка 38:
Объясним на примере:
Объясним на примере:
-
Рассмотрим состав работников компании
+
Допустим, что нам нужно выбрать 100 школьников из школы с общим количеством учащихся,равным 2000. Тогда доля отбора составит 1 из 20. Также мы можем поделить всех детей по возрасту и полу, зная разбиение, можно отбирать количество людей из каждой страты по выбранной доле. Более наглядно можно увидеть в таблице
 +
{| class="standard"
{| class="standard"
-
!Сотрудники
+
!Пол/возраст
!Количество
!Количество
 +
!Значение, полученное согласно доле отбора
 +
!Выбранное количество
 +
!Доля учеников в выбранной выборке
|-
|-
-
|Мужчины, работающие на полный день
+
|Мальчики, младше 6 лет
-
|90
+
|169
 +
|8.45
 +
|8
 +
|0.0473
|-
|-
-
|Мужчины, работающие на неполный день
+
|Девочки, младше 6 лет
-
|18
+
|147
 +
|7.35
 +
|7
 +
|0.0476
|-
|-
-
|Женщины, работающие на полный день
+
|Мальчики в возрасте 7-9 лет
-
|9
+
|194
 +
|9.7
 +
|10
 +
|0.0515
|-
|-
-
|Женщины, работающие на неполный день
+
|Девочки в возрасте 7-9 лет
-
|63
+
|213
 +
|10.65
 +
|11
 +
|0.0516
 +
|-
 +
|Мальчики в возрасте 10 лет
 +
|177
 +
|8.85
 +
|9
 +
|0.0508
 +
|-
 +
|Девочки в возрасте 10 лет
 +
|198
 +
|9.9
 +
|10
 +
|0.0510
 +
|-
 +
|Всего
 +
|1098
 +
|54.9
 +
|55
 +
|0.0501
|}
|}
-
Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%), 4 мужчины, имеющих полставки и т.д.
+
Таким образом, можно заметить, что доли отбора из каждой страты практически не различаются между собой.
Плюсы:
Плюсы:
Строка 62: Строка 96:
*Точность увеличивается с улучшением однородности внутри каждой страты
*Точность увеличивается с улучшением однородности внутри каждой страты
*Улучшение точности относится ко всем параметрам исследования
*Улучшение точности относится ко всем параметрам исследования
 +
 +
Disproportionate stratification. With disproportionate stratification, the sampling fraction may vary from one stratum to the next.
 +
При непропорциональном выборе доля отбора может
 +
 +
The precision of the design may be very good or very poor, depending on how sample points are allocated to strata. The way to maximize precision through disproportionate stratification is discussed in a subsequent lesson (see Statistics Tutorial: Sample Size Within Strata).
 +
If variances differ across strata, disproportionate stratification can provide better precision than proportionate stratification, when sample points are correctly allocated to strata.
 +
With disproportionate stratification, the researcher can maximize precision for a single important survey measure. However, gains in precision may not accrue to other survey measures.

Версия 11:43, 30 декабря 2009

Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:

  • генеральная совокупность состоит из N элементов
  • генералльная совокупность разделена на H групп, называемых стратами или слоями
  • каждый элемент совокупности принадлежит одной и только одной страте
  • известно количество наблюдений внутри каждой страты N_h,\;\; N=N_1+N_2+N_3+\dots+N_{H-1}+N_H
  • исследователь получает вероятность выборки из каждой страты

В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.

Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.

  1. Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
  2. Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
  3. Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
  4. Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.

Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором

Преимущества

  • стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
  • в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
  • с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
  • есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;

Недостатки

  • административные трудности, сложно организовать на практике;
  • трудности в определении каждой страты;
  • чтобы проанализировать результаты потребуется больше усилий;

Пропорциональный и непропорциональный выбор

Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.

Пропорциональный выбор

Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.

Объясним на примере: Допустим, что нам нужно выбрать 100 школьников из школы с общим количеством учащихся,равным 2000. Тогда доля отбора составит 1 из 20. Также мы можем поделить всех детей по возрасту и полу, зная разбиение, можно отбирать количество людей из каждой страты по выбранной доле. Более наглядно можно увидеть в таблице

Пол/возраст Количество Значение, полученное согласно доле отбора Выбранное количество Доля учеников в выбранной выборке
Мальчики, младше 6 лет 169 8.45 8 0.0473
Девочки, младше 6 лет 147 7.35 7 0.0476
Мальчики в возрасте 7-9 лет 194 9.7 10 0.0515
Девочки в возрасте 7-9 лет 213 10.65 11 0.0516
Мальчики в возрасте 10 лет 177 8.85 9 0.0508
Девочки в возрасте 10 лет 198 9.9 10 0.0510
Всего 1098 54.9 55 0.0501

Таким образом, можно заметить, что доли отбора из каждой страты практически не различаются между собой.

Плюсы:

  • Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
  • Точность увеличивается с улучшением однородности внутри каждой страты
  • Улучшение точности относится ко всем параметрам исследования

Disproportionate stratification. With disproportionate stratification, the sampling fraction may vary from one stratum to the next. При непропорциональном выборе доля отбора может

The precision of the design may be very good or very poor, depending on how sample points are allocated to strata. The way to maximize precision through disproportionate stratification is discussed in a subsequent lesson (see Statistics Tutorial: Sample Size Within Strata). If variances differ across strata, disproportionate stratification can provide better precision than proportionate stratification, when sample points are correctly allocated to strata. With disproportionate stratification, the researcher can maximize precision for a single important survey measure. However, gains in precision may not accrue to other survey measures.

Личные инструменты