Выборка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (16:28, 15 октября 2008) (править) (отменить)
(Ссылки)
 
(8 промежуточных версий не показаны.)
Строка 3: Строка 3:
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен.
-
Если же выбором прецедентов можно управлять, то возникает задача выбора минимального числа прецедентов, содержащих максимум полезной информации, см.
+
Если же выбором прецедентов можно управлять, то возникают задачи оптимального формирования выборки, см. также
[[активное обучение]],
[[активное обучение]],
[[планирование экспериментов]],
[[планирование экспериментов]],
Строка 10: Строка 10:
По каждому прецеденту собираются (измеряются) некоторые ''данные'' (data), образующие ''описание прецедента''.
По каждому прецеденту собираются (измеряются) некоторые ''данные'' (data), образующие ''описание прецедента''.
Совокупность описаний всех прецедентов выборки является входной информацией для
Совокупность описаний всех прецедентов выборки является входной информацией для
-
[[прикладная статистика|статистического анализа данных]],
+
[[статистический анализ данных|статистического анализа данных]],
-
[[интеллектуальный анализ данных|интеллектуального анализа данных]] и
+
[[интеллектуальный анализ данных|интеллектуального анализа данных]],
[[машинное обучение|машинного обучения]].
[[машинное обучение|машинного обучения]].
Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы;
Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы;
иногда они употребляются вместе как один термин ''выборка данных'' (data set).
иногда они употребляются вместе как один термин ''выборка данных'' (data set).
-
 
+
Поэтому ''[[анализ данных]]'' можно понимать также как ''анализ конечных выборок''.
Основные цели ''анализа данных'':
Основные цели ''анализа данных'':
-
* выявление общих зависимостей, закономерностей, взаимосвязей по имеющийся частной выборке данных;
+
* ''[[проверка гипотез]]'' относительно имеющейся выборки данных;
-
* формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
+
* ''[[эмпирическая индукция]]'' — выявление общих закономерностей, присущих всей генеральной совокупности, по имеющийся выборке данных;
 +
* ''[[прогнозирование]]'' — формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
== Вероятностная модель порождения данных ==
== Вероятностная модель порождения данных ==
-
Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
+
=== Случайная выборка ===
-
Предполагается, что ''генеральная совокупность'' <tex>X</tex> является [[Вероятностное пространство|вероятностным пространством]] с некоторой (возможно, неизвестной) [[Вероятностная мера|вероятностной мерой]] <tex>\mathbb{P}</tex>.
+
Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом.
 +
''Объём'' (''длина'') выборки <tex>m</tex> считается произвольной, но фиксированной, неслучайной величиной.
-
'''Простая выборка''' (i.i.d. sample — independent, identically distributed sample) — конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}.
+
Формально это означает, что с генеральной совокупностью <tex>X</tex> связывается [[вероятностное пространство]] <tex>\langle X^m,\Sigma^m,{\mathbb P}_m\rangle</tex>,
 +
где
 +
<tex>X^m</tex> — множество всех выборок длины <tex>m</tex>,
 +
<tex>\Sigma^m</tex> — заданная на этом множестве сигма-алгебра событий,
 +
<tex>{\mathbb P}_m</tex> — [[вероятностная мера]], как правило, неизвестная.
-
Пусть <tex>p(x)</tex> — плотность распределения на <tex>X</tex>.
+
''Случайная выборка'' <tex>x^m = (x_1,\ldots,x_m)</tex> — это последовательность из <tex>m</tex> прецедентов, выбранная из множества <tex>X^m</tex> согласно вероятностной мере&nbsp;<tex>\mathbb{P}_m</tex>.
-
Тогда плотность распределения простой выборки
+
-
<tex>X^m = \{x_1,\ldots,x_m\}</tex>,
+
-
называемая также ''правдоподобием'' выборки, есть
+
-
<tex>p(X^m) = p(x_1,\ldots,x_m) = \prod_{i=1}^m p(x_i)</tex>.
+
-
Благодаря свойству независимости плотность выборки представляется в виде произведения плотностей, взятых для отдельных объектов.
+
-
На гипотезе простой выборки существенно основаны:
+
=== Однородная выборка ===
-
* [[метод максимума правдоподобия]], позволяющий находить оптимальные значения параметров [[Модель зависимости|модели зависимости]] по имеющейся выборке данных;
+
Выборка называется ''однородной'', если все её прецеденты <tex>x_i,\; i=1,\ldots,m</tex> одинаково распределёны, то есть выбраны из одного и того же распределения <tex>\langle X^1,\Sigma^1,{\mathbb P}_1\rangle</tex>.
-
* многие [[Статистический тест|статистические тесты]];
+
 
-
* оценки [[Обобщающая способность|обобщающей способности]] в [[Теория вычислительного обучения|теории вычислительного обучения]].
+
=== Независимая выборка ===
 +
Выборка называется ''независимой'', если вероятностная мера на <tex>X^m</tex> представима в виде произведения <tex>m</tex> вероятностных мер на <tex>X^1</tex>, то есть
 +
для любой системы подмножеств <tex>A_1,\ldots,A_m\in\Sigma^1</tex>
 +
:: <tex>{\mathbb P}_m\left( A_1 \times\ldots\times A_m \right) = {\mathbb P}_1(A_1)\cdot\ldots\cdot{\mathbb P}_1(A_m).</tex>
 +
 
 +
Если на <tex>X</tex> существует плотность распределения <tex>p(x)</tex>, то независимость означает, что <tex>m</tex>-мерная плотность распределения на <tex>X^m</tex> представима в виде произведения <tex>m</tex> одномерных плотностей:
 +
:: <tex>p(x^m) \equiv p(x_1,\ldots,x_m)= \prod_{i=1}^m p(x_i).</tex>
 +
 
 +
=== Простая выборка ===
 +
''Простая выборка'' — это случайная, однородная, независимая выборка (i.i.d. — independent, identically distributed).
 +
 
 +
Эквивалентное определение: выборка <tex>x^m = (x_1,\ldots,x_m)</tex> простая, если значения <tex>x_1,\ldots,x_m</tex> являются реализациями <tex>m</tex> независимых одинаково распределённых случайных величин.
 +
 
 +
Простая выборка является математической моделью серии независимых опытов.
 +
На гипотезу простой выборки существенно опираются многие методы
 +
[[статистический анализ данных|статистического анализа данных]] и
 +
[[машинное обучение|машинного обучения]],
 +
в частности,
 +
большинство [[Статистический тест|статистических тестов]],
 +
а также
 +
оценки [[Обобщающая способность|обобщающей способности]]
 +
в [[Теория вычислительного обучения|теории вычислительного обучения]].
 +
 
 +
Также существует множество методов, не предполагающих однородность и/или независимость выборки,
 +
в частности, в [[Теория случайных процессов|теории случайных процессов]], в [[Прогнозирование временных рядов|прогнозировании временных рядов]].
 +
[[Метод максимума правдоподобия]] позволяет оценивать значения параметров [[Модель зависимости|модели]] по обучающей выборке,
 +
в&nbsp;общем случае не требуя, чтобы выборка была однородной и независимой.
 +
Однако в случае простых выборок применение метода существенно упрощается.
== Обучающая и тестовая выборка ==
== Обучающая и тестовая выборка ==
 +
'''Обучающая выборка''' (training sample) — выборка, по которой производится настройка (оптимизация параметров) [[Модель зависимости|модели зависимости]].
-
Оценка качества модели, построенной по обучающей выборке, на той же самой выборке, как правило, оказывается оптимистически смещённой.
+
Если [[модель зависимости]] построена по обучающей выборке <tex>X^m</tex>, то оценка качества этой модели, сделанная по той же выборке <tex>X^m</tex> оказывается, как правило, оптимистически смещённой.
Это нежелательное явление называют [[переобучение]]м.
Это нежелательное явление называют [[переобучение]]м.
На практике оно встречается очень часто.
На практике оно встречается очень часто.
-
Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимой тестовой выборке, объекты которой не использовались для обучения.
+
Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимых данных, которые не использовались для обучения.
-
Однако, если оценка, сделанная по тестовой выборке, применяется для выбора наилучшей модели, то она снова оказывается оптимистически смещённой.
+
-
Для получения немсещённой оценки выбранной модели приходится выделять третью выборку данных.
+
-
 
+
-
'''Обучающая выборка''' (training sample) — выборка, по которой производится построение (оптимизация параметров) [[Модель зависимости|модели зависимости]].
+
'''Тестовая (или контрольная) выборка''' (test sample) — выборка, по которой оценивается качество построенной [[Модель зависимости|модели]]. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является [[Несмещённая оценка|несмещённой]].
'''Тестовая (или контрольная) выборка''' (test sample) — выборка, по которой оценивается качество построенной [[Модель зависимости|модели]]. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является [[Несмещённая оценка|несмещённой]].
 +
 +
Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели.
 +
Однако тогда она снова окажется оптимистически смещённой.
 +
Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.
'''Проверочная выборка''' (validation sample) — выборка, по которой осуществляется [[выбор модели|выбор наилучшей модели]] из множества моделей, построенных по обучающей выборке.
'''Проверочная выборка''' (validation sample) — выборка, по которой осуществляется [[выбор модели|выбор наилучшей модели]] из множества моделей, построенных по обучающей выборке.
Строка 61: Строка 90:
=== Выборочный контроль качества ===
=== Выборочный контроль качества ===
-
== Ссылки ==
+
== Смотри также ==
 +
* [[Многомерная случайная величина]]
== Литература ==
== Литература ==

Текущая версия

Содержание

Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.

Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором прецедентов можно управлять, то возникают задачи оптимального формирования выборки, см. также активное обучение, планирование экспериментов, выборочное обследование.

По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set). Поэтому анализ данных можно понимать также как анализ конечных выборок. Основные цели анализа данных:

  • проверка гипотез относительно имеющейся выборки данных;
  • эмпирическая индукция — выявление общих закономерностей, присущих всей генеральной совокупности, по имеющийся выборке данных;
  • прогнозирование — формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Вероятностная модель порождения данных

Случайная выборка

Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Объём (длина) выборки m считается произвольной, но фиксированной, неслучайной величиной.

Формально это означает, что с генеральной совокупностью X связывается вероятностное пространство \langle X^m,\Sigma^m,{\mathbb P}_m\rangle, где X^m — множество всех выборок длины m, \Sigma^m — заданная на этом множестве сигма-алгебра событий, {\mathbb P}_mвероятностная мера, как правило, неизвестная.

Случайная выборка x^m = (x_1,\ldots,x_m) — это последовательность из m прецедентов, выбранная из множества X^m согласно вероятностной мере \mathbb{P}_m.

Однородная выборка

Выборка называется однородной, если все её прецеденты x_i,\; i=1,\ldots,m одинаково распределёны, то есть выбраны из одного и того же распределения \langle X^1,\Sigma^1,{\mathbb P}_1\rangle.

Независимая выборка

Выборка называется независимой, если вероятностная мера на X^m представима в виде произведения m вероятностных мер на X^1, то есть для любой системы подмножеств A_1,\ldots,A_m\in\Sigma^1

{\mathbb P}_m\left( A_1 \times\ldots\times A_m \right) = {\mathbb P}_1(A_1)\cdot\ldots\cdot{\mathbb P}_1(A_m).

Если на X существует плотность распределения p(x), то независимость означает, что m-мерная плотность распределения на X^m представима в виде произведения m одномерных плотностей:

p(x^m) \equiv p(x_1,\ldots,x_m)= \prod_{i=1}^m p(x_i).

Простая выборка

Простая выборка — это случайная, однородная, независимая выборка (i.i.d. — independent, identically distributed).

Эквивалентное определение: выборка x^m = (x_1,\ldots,x_m) простая, если значения x_1,\ldots,x_m являются реализациями m независимых одинаково распределённых случайных величин.

Простая выборка является математической моделью серии независимых опытов. На гипотезу простой выборки существенно опираются многие методы статистического анализа данных и машинного обучения, в частности, большинство статистических тестов, а также оценки обобщающей способности в теории вычислительного обучения.

Также существует множество методов, не предполагающих однородность и/или независимость выборки, в частности, в теории случайных процессов, в прогнозировании временных рядов. Метод максимума правдоподобия позволяет оценивать значения параметров модели по обучающей выборке, в общем случае не требуя, чтобы выборка была однородной и независимой. Однако в случае простых выборок применение метода существенно упрощается.

Обучающая и тестовая выборка

Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.

Если модель зависимости построена по обучающей выборке X^m, то оценка качества этой модели, сделанная по той же выборке X^m оказывается, как правило, оптимистически смещённой. Это нежелательное явление называют переобучением. На практике оно встречается очень часто. Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимых данных, которые не использовались для обучения.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.

Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели. Однако тогда она снова окажется оптимистически смещённой. Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.

Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Выборочный анализ

Выборочное обследование

Выборочный контроль качества

Смотри также

Литература

Личные инструменты