Стратификация

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Метод стратификации относится к методам отбора выборки,имеющим следующие особенности: *генеральная ...)
Строка 13: Строка 13:
#Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
#Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
#Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
#Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
 +
 +
Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором
Преимущества
Преимущества
Строка 26: Строка 28:
*трудности в определении каждой страты;
*трудности в определении каждой страты;
*чтобы проанализировать результаты потребуется больше усилий;
*чтобы проанализировать результаты потребуется больше усилий;
 +
 +
Пропорциональный и непропорциональный выбор
 +
 +
Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.
 +
 +
Пропорциональный выбор
 +
 +
Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.
 +
 +
Объясним на примере:
 +
Рассмотрим состав работников компании
 +
{| class="standard"
 +
!Сотрудники
 +
!Количество
 +
|-
 +
|Мужчины, работающие на полный день
 +
|90
 +
|-
 +
|Мужчины, работающие на неполный день
 +
|18
 +
|-
 +
|Женщины, работающие на полный день
 +
|9
 +
|-
 +
|Женщины, работающие на неполный день
 +
|63
 +
|}
 +
 +
Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%), 4 мужчины, имеющих полставки и т.д.
 +
 +
Плюсы:
 +
*Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
 +
*Точность увеличивается с улучшением однородности внутри каждой страты
 +
*Улучшение точности относится ко всем параметрам исследования

Версия 11:13, 30 декабря 2009

Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:

  • генеральная совокупность состоит из N элементов
  • генералльная совокупность разделена на H групп, называемых стратами или слоями
  • каждый элемент совокупности принадлежит одной и только одной страте
  • известно количество наблюдений внутри каждой страты N_h,\;\; N=N_1+N_2+N_3+\dots+N_{H-1}+N_H
  • исследователь получает вероятность выборки из каждой страты

В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.

Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.

  1. Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
  2. Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
  3. Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
  4. Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.

Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором

Преимущества

  • стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
  • в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
  • с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
  • есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;

Недостатки

  • административные трудности, сложно организовать на практике;
  • трудности в определении каждой страты;
  • чтобы проанализировать результаты потребуется больше усилий;

Пропорциональный и непропорциональный выбор

Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.

Пропорциональный выбор

Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.

Объясним на примере: Рассмотрим состав работников компании

Сотрудники Количество
Мужчины, работающие на полный день 90
Мужчины, работающие на неполный день 18
Женщины, работающие на полный день 9
Женщины, работающие на неполный день 63

Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%), 4 мужчины, имеющих полставки и т.д.

Плюсы:

  • Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
  • Точность увеличивается с улучшением однородности внутри каждой страты
  • Улучшение точности относится ко всем параметрам исследования
Личные инструменты