Пропорциональный выбор

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Введение. Выборочный метод)
 
(13 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Задана совокупность наблюдений, объединенных некоторым общим признаком. Предположим, что эта совокупность бесконечна в том смысле, что в принципе наблюдения можно продолжить в любой момент времени, как, например, в серии бросаний монеты. Из этой совокупности "случайным образом" извлекается последовательность наблюдений. Если число этих наблюдений достаточно велико, то частота появления событий, обладающих указанным признаком, незначительно отклоняется от некоторой постоянной, называемой эмпирической вероятностью. На практике ответить на вопрос о том, может ли выбор из нашей совокупности рассматриваться как случайный, нелегко. Чаще всего этой несколько расплывчатой формулировкой о случайном выборе пользуются тогда, когда нет оснований предполагать наличие "привилегированных" наблюдений. В этой связи часто говорят об "урновой" модели. Содержимое урны, например шары, неразличимые на ощупь, представляет совокупность, а извлечение шаров, которые мы предполагаем хорошо перемешанными, - случайный выбор.
+
== Введение. Выборочный метод ==
 +
'''''Выборочный метод''''' - статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку. Математическая теория выборочного метода опирается на два важных раздела математической статистики - теорию выбора из конечной совокупности и теорию выбора из бесконечной совокупности. Основное отличие выборочного метода для конечной и бесконечной совокупностей заключается в том, что в первом случае выборочный метод применяется, как правило, к объектам неслучайной, детерминированной природы (например, число дефектных изделий в данной партии готовой продукции не является случайной величиной: это число - неизвестная постоянная, которую и надлежит оценить по выборочным данным). Во втором случае выборочный метод обычно применяется для изучения свойств случайных объектов (например, для исследования свойств непрерывно распределённых случайных ошибок измерений, каждое из которых теоретически может быть истолковано как реализация одного из бесконечного множества возможных результатов).
-
Целью такого случайного выбора из совокупности является выяснение ее структуры, в частности определение эмпирической вероятности. Здесь отчасти используется то эвристическое соображение, что при бесконечно большом числе наблюдений можно точно определить значение эмпирической вероятности. Практически же проведение произвольно большого числа опытов или наблюдений связано с трудностями различных характеров. Так, проведение большого числа опытов наталкивается на техническую невыполнимость или на экономические затруднения, что приводит к ограничению числа наблюдений. Приближение к идеальным условиям, которое имеет место в случае игр на разорение, в большинстве практически важных ситуаций не имеет места.
+
Выбор из конечной совокупности и его теория являются основой статистических методов контроля качества и часто применяются в социологических исследованиях (см. Выборочное наблюдение). Согласно теории вероятностей, выборка будет правильно отражать свойства всей совокупности, если выбор производится случайно, т. е. так, что любая из возможных выборок заданного объёма <tex>n</tex> из совокупности объёма <tex>N</tex> (число таких выборок равно <tex>\frac{N!}{n!(N - n)!}</tex>) имеет одинаковую вероятность быть фактически выбранной.
-
Установилась следующая терминология. Бесконечная (гипотетическая) совокупность возможных наблюдений называется генеральной совокупностью, и результаты наблюдений, из нее извлеченных, называются выборкой из этой совокупности. Число наблюдений в выборке называют ее объемом. Понятие бесконечной совокупности представляет идеализацию действительного положения вещей, даже когда под этим понимается потенциальная возможность неограниченного повторения опытов. Практик рассматривает всякую совокупность, "достаточно большую" по сравнению с объемом имеющейся выборки, как бесконечную.
+
На практике наиболее часто используется выбор без возвращения (бесповторная выборка), когда каждый отобранный объект перед выбором следующего объекта в исследуемую совокупность не возвращается (такой выбор применяется при статистическом контроле качества). Выбор с возвращением (выборка с повторением) рассматривается обычно лишь в теоретических исследованиях (примером выбора с возвращением является регистрация числа частиц, коснувшихся в течение данного времени стенок сосуда, внутри которого совершается броуновское движение). Если <tex>n << N</tex>, то повторный и бесповторный выборы дают практически эквивалентные результаты.
 +
 
 +
Свойства совокупности, исследуемые выборочный методом, могут быть качественными и количественными. В первом случае задача выборочного обследования заключается в определении количества <tex>M</tex> объектов совокупности, обладающих каким-либо признаком (например, при статистическом контроле часто интересуются количеством <tex>M</tex> дефектных изделий в партии объёма <tex>N</tex>). Оценкой для <tex>M</tex> служит отношение <tex>\frac{mN}{n}</tex>, где <tex>m</tex> - число объектов с данным признаком в выборке объёма <tex>n</tex>. В случае количественного признака имеют дело с определением среднего значения совокупности <tex>\overline{x}=(x_1+x_2+...+x_N)/N</tex>. Оценкой для <tex>\overline{x}</tex> является выборочное среднее <tex>\overline{\eps}=(\eps_1+\eps_2+...+\eps_n)/n</tex>, где <tex>x_1,..., x_n</tex> - те значения из исследуемой совокупности <tex>x_1, x_2,..., x_N</tex>, которые принадлежат выборке. С математической точки зрения 1-й случай - частная разновидность 2-го, которая имеет место, когда <tex>M</tex> величин <tex>x_i</tex> равны <tex>1</tex>, а остальные <tex>(N - M)</tex> равны <tex>0</tex>; в этой ситуации <tex>\overline{x}=M/N</tex> и <tex>\overline{\eps}=\mu/n</tex>.
 +
 
 +
В математической теории выборочного метода оценка средних значений занимает центральное место потому, что к ней в известной степени сводится изучение изменчивости признака внутри совокупности, так как за характеристику изменчивости обычно принимают дисперсию
 +
 
 +
::<tex>\sigma^2=\frac{1}{N}[(x_1-\overline{x})^2+...+(x_N-\overline{x})^2]</tex>,
 +
 
 +
представляющую собой среднее значение квадратов отклонений <tex>x_i</tex> от их среднего значения <tex>\overline{x}</tex>. В случае изучения качественного признака <tex>s^2 = \frac{M(N - M)}{N^2}</tex>.
 +
 
 +
О точности оценок <tex>m/n</tex> и <tex>\overline{\eps}</tex> судят по их дисперсиям
 +
 
 +
::<tex>\sigma^2_{\mu/n}=E(\frac{\mu}{n}-\frac{M}{N})^2</tex> и <tex>\alpha^2_\eps=E(\overline{\eps}-\overline{x})^2</tex>,
 +
 
 +
которые в терминах дисперсии конечной совокупности <tex>s^2</tex> выражаются в виде отношений <tex>s^2/n</tex> (в случае выборок с повторением) и <tex>\frac{s^2(N - n)}{n (N - 1)}</tex> (в случае бесповторных выборок). Так как во многих практически интересных задачах случайные величины <tex>m/n</tex> и <tex>\overline{\eps}</tex> при <tex>n = 30</tex> приближённо подчиняются нормальному распределению, то отклонения <tex>m/n</tex> от <tex>M/N</tex> и <tex>\overline{\eps}</tex> от <tex>\overline{x}</tex>, превышающие по абсолютной величине <tex>2s_{m/n}</tex> и <tex>2\alpha_\eps</tex> соответственно, могут при <tex>n = 30</tex> осуществиться в среднем приблизительно в одном случае из двадцати. Более полную информацию о распределении количественного признака в данной совокупности можно получить с помощью эмпирического распределения этого признака в выборке.
 +
 
 +
Выбор из бесконечной совокупности. В математической статистике результаты каких-либо однородных наблюдений (чаще всего независимых) принято называть выборкой даже в том случае, когда эти результаты не соответствуют понятию выборки с повторениями или без повторений из конечной совокупности. Например, результаты измерений углов на местности, подверженные независимым непрерывно распределённым случайным ошибкам, часто называют выборкой из бесконечной совокупности. Предполагается, что принципиально можно осуществить любое число таких наблюдений. Полученные фактически результаты считают выборкой из бесконечного множества возможных результатов, называемых генеральной совокупностью.
 +
 
 +
Понятие генеральной совокупности не является логически безупречным и необходимым. Для решения практических задач нужна не сама бесконечная генеральная совокупность, а лишь те или иные характеристики, которые ей ставятся в соответствие. Эти характеристики с точки зрения теории вероятностей являются числовыми или функциональными характеристиками некоторого распределения вероятностей, а элементы выборки -случайными величинами, подчиняющимися этому распределению. Такое истолкование позволяет распространить на выборочные оценки общую теорию статистических оценок.
 +
 
 +
По этой причине, например, в вероятностной теории обработки наблюдений понятие бесконечной генеральной совокупности заменяется понятием распределения вероятностей, содержащего неизвестные параметры. Результаты наблюдений истолковываются как экспериментально наблюдаемые значения случайных величин, подчиняющихся этому распределению, Цель обработки - вычисление по результатам наблюдений в том или ином смысле оптимальных статистических оценок для неизвестных параметров распределения.
 +
 
 +
== Пропорциональный выбор ==
 +
Во многих практически важных случаях выбор чисел <tex>n_i</tex>, удовлетворяющих соотношению <tex>\sum\limits_{i=1}^k n_i=n</tex>, в значительной степени произволен. Представляется естественным пытаться выбрать <tex>n_i</tex> таким образом, чтобы минимизировать соотношение <tex>E[(\eps_r-a)^2]=\sum\limits_{i=1}^k p_i^2 \frac {\sigma_i^2}{n_i}</tex>.
 +
 
 +
Предположим для простоты, что <tex>np_i, \; i = 1, ..., k </tex>, - целые числа, и положим
 +
 
 +
::<tex>n_i=np_i, \; i=1, ... , k. \; \; (1)</tex>
 +
 
 +
Термин ''пропорциональный выбор'' объясняется частотным соотношением, согласно которому числа <tex>p_i</tex> приближенно равны отношению числа элементов в <tex>U_i</tex> к числу элементов в совокупности; так же соотносятся объем выборки, извлеченной из <tex>U_i</tex>, и объем всей выборки. Возьмем в определении <tex>\eps_r</tex> значения <tex>n_i</tex> из (1) и обозначим полученную величину через <tex>\overline{\eps_p}</tex>. Тогда
 +
 
 +
::<tex>\overline{\eps_p}=\sum \limits_{i=1}^{k}p_i\overline{\eps}^{(i)},</tex>
 +
 
 +
где <tex>\overline{\eps}^{(i)}</tex> определены согласно <tex>\overline{\eps}^{(i)}=\sum\limits_{j=1}^{n_j}\eps_j^{(i)}/n_i, \; 1\le i \le k,</tex> а <tex>n_i, \; 1 \le i \le k</tex>, задаются соотношением (1). В силу <tex>E(\overline{\eps_r})=a</tex>:
 +
 
 +
::<tex>E(\overline{\eps_p})=a,</tex> и согласно <tex>E[(\eps_r-a)^2]=\sum\limits_{i=1}^{k}p_i^2\frac {\sigma_i^2}{n_i}</tex>:
 +
 
 +
::<tex>E[(\eps_p-a)^2]=\sum\limits_{i=1}^k p_i^2 \frac {\sigma_i^2}{n_i}</tex>.
{{Задание|Коликова Катя|Vokov|31 декабря 2009}}
{{Задание|Коликова Катя|Vokov|31 декабря 2009}}

Текущая версия

Введение. Выборочный метод

Выборочный метод - статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку. Математическая теория выборочного метода опирается на два важных раздела математической статистики - теорию выбора из конечной совокупности и теорию выбора из бесконечной совокупности. Основное отличие выборочного метода для конечной и бесконечной совокупностей заключается в том, что в первом случае выборочный метод применяется, как правило, к объектам неслучайной, детерминированной природы (например, число дефектных изделий в данной партии готовой продукции не является случайной величиной: это число - неизвестная постоянная, которую и надлежит оценить по выборочным данным). Во втором случае выборочный метод обычно применяется для изучения свойств случайных объектов (например, для исследования свойств непрерывно распределённых случайных ошибок измерений, каждое из которых теоретически может быть истолковано как реализация одного из бесконечного множества возможных результатов).

Выбор из конечной совокупности и его теория являются основой статистических методов контроля качества и часто применяются в социологических исследованиях (см. Выборочное наблюдение). Согласно теории вероятностей, выборка будет правильно отражать свойства всей совокупности, если выбор производится случайно, т. е. так, что любая из возможных выборок заданного объёма n из совокупности объёма N (число таких выборок равно \frac{N!}{n!(N - n)!}) имеет одинаковую вероятность быть фактически выбранной.

На практике наиболее часто используется выбор без возвращения (бесповторная выборка), когда каждый отобранный объект перед выбором следующего объекта в исследуемую совокупность не возвращается (такой выбор применяется при статистическом контроле качества). Выбор с возвращением (выборка с повторением) рассматривается обычно лишь в теоретических исследованиях (примером выбора с возвращением является регистрация числа частиц, коснувшихся в течение данного времени стенок сосуда, внутри которого совершается броуновское движение). Если n << N, то повторный и бесповторный выборы дают практически эквивалентные результаты.

Свойства совокупности, исследуемые выборочный методом, могут быть качественными и количественными. В первом случае задача выборочного обследования заключается в определении количества M объектов совокупности, обладающих каким-либо признаком (например, при статистическом контроле часто интересуются количеством M дефектных изделий в партии объёма N). Оценкой для M служит отношение \frac{mN}{n}, где m - число объектов с данным признаком в выборке объёма n. В случае количественного признака имеют дело с определением среднего значения совокупности \overline{x}=(x_1+x_2+...+x_N)/N. Оценкой для \overline{x} является выборочное среднее \overline{\eps}=(\eps_1+\eps_2+...+\eps_n)/n, где x_1,..., x_n - те значения из исследуемой совокупности x_1, x_2,..., x_N, которые принадлежат выборке. С математической точки зрения 1-й случай - частная разновидность 2-го, которая имеет место, когда M величин x_i равны 1, а остальные (N - M) равны 0; в этой ситуации \overline{x}=M/N и \overline{\eps}=\mu/n.

В математической теории выборочного метода оценка средних значений занимает центральное место потому, что к ней в известной степени сводится изучение изменчивости признака внутри совокупности, так как за характеристику изменчивости обычно принимают дисперсию

\sigma^2=\frac{1}{N}[(x_1-\overline{x})^2+...+(x_N-\overline{x})^2],

представляющую собой среднее значение квадратов отклонений x_i от их среднего значения \overline{x}. В случае изучения качественного признака s^2 = \frac{M(N - M)}{N^2}.

О точности оценок m/n и \overline{\eps} судят по их дисперсиям

\sigma^2_{\mu/n}=E(\frac{\mu}{n}-\frac{M}{N})^2 и \alpha^2_\eps=E(\overline{\eps}-\overline{x})^2,

которые в терминах дисперсии конечной совокупности s^2 выражаются в виде отношений s^2/n (в случае выборок с повторением) и \frac{s^2(N - n)}{n (N - 1)} (в случае бесповторных выборок). Так как во многих практически интересных задачах случайные величины m/n и \overline{\eps} при n = 30 приближённо подчиняются нормальному распределению, то отклонения m/n от M/N и \overline{\eps} от \overline{x}, превышающие по абсолютной величине 2s_{m/n} и 2\alpha_\eps соответственно, могут при n = 30 осуществиться в среднем приблизительно в одном случае из двадцати. Более полную информацию о распределении количественного признака в данной совокупности можно получить с помощью эмпирического распределения этого признака в выборке.

Выбор из бесконечной совокупности. В математической статистике результаты каких-либо однородных наблюдений (чаще всего независимых) принято называть выборкой даже в том случае, когда эти результаты не соответствуют понятию выборки с повторениями или без повторений из конечной совокупности. Например, результаты измерений углов на местности, подверженные независимым непрерывно распределённым случайным ошибкам, часто называют выборкой из бесконечной совокупности. Предполагается, что принципиально можно осуществить любое число таких наблюдений. Полученные фактически результаты считают выборкой из бесконечного множества возможных результатов, называемых генеральной совокупностью.

Понятие генеральной совокупности не является логически безупречным и необходимым. Для решения практических задач нужна не сама бесконечная генеральная совокупность, а лишь те или иные характеристики, которые ей ставятся в соответствие. Эти характеристики с точки зрения теории вероятностей являются числовыми или функциональными характеристиками некоторого распределения вероятностей, а элементы выборки -случайными величинами, подчиняющимися этому распределению. Такое истолкование позволяет распространить на выборочные оценки общую теорию статистических оценок.

По этой причине, например, в вероятностной теории обработки наблюдений понятие бесконечной генеральной совокупности заменяется понятием распределения вероятностей, содержащего неизвестные параметры. Результаты наблюдений истолковываются как экспериментально наблюдаемые значения случайных величин, подчиняющихся этому распределению, Цель обработки - вычисление по результатам наблюдений в том или ином смысле оптимальных статистических оценок для неизвестных параметров распределения.

Пропорциональный выбор

Во многих практически важных случаях выбор чисел n_i, удовлетворяющих соотношению \sum\limits_{i=1}^k n_i=n, в значительной степени произволен. Представляется естественным пытаться выбрать n_i таким образом, чтобы минимизировать соотношение E[(\eps_r-a)^2]=\sum\limits_{i=1}^k p_i^2 \frac {\sigma_i^2}{n_i}.

Предположим для простоты, что np_i, \; i = 1, ..., k , - целые числа, и положим

n_i=np_i, \; i=1, ... , k. \; \; (1)

Термин пропорциональный выбор объясняется частотным соотношением, согласно которому числа p_i приближенно равны отношению числа элементов в U_i к числу элементов в совокупности; так же соотносятся объем выборки, извлеченной из U_i, и объем всей выборки. Возьмем в определении \eps_r значения n_i из (1) и обозначим полученную величину через \overline{\eps_p}. Тогда

\overline{\eps_p}=\sum \limits_{i=1}^{k}p_i\overline{\eps}^{(i)},

где \overline{\eps}^{(i)} определены согласно \overline{\eps}^{(i)}=\sum\limits_{j=1}^{n_j}\eps_j^{(i)}/n_i, \; 1\le i \le k, а n_i, \; 1 \le i \le k, задаются соотношением (1). В силу E(\overline{\eps_r})=a:

E(\overline{\eps_p})=a, и согласно E[(\eps_r-a)^2]=\sum\limits_{i=1}^{k}p_i^2\frac {\sigma_i^2}{n_i}:
E[(\eps_p-a)^2]=\sum\limits_{i=1}^k p_i^2 \frac {\sigma_i^2}{n_i}.


Данная статья является непроверенным учебным заданием.
Студент: Участник:Коликова Катя
Преподаватель: Участник:Vokov
Срок: 31 декабря 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.