Выборка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
(Вероятностная модель порождения данных)
Строка 23: Строка 23:
== Вероятностная модель порождения данных ==
== Вероятностная модель порождения данных ==
-
Вероятностная модель данных основана на двух гипотезах:
+
Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом.
-
* ''Генеральная совокупность'' <tex>X</tex> является [[Вероятностное пространство|вероятностным пространством]] с некоторой (возможно, неизвестной) [[Вероятностная мера|вероятностной мерой]] <tex>\mathbb{P}</tex>.
+
С формальной точки зрения, это означает, что с генеральной совокупностью <tex>X</tex> связывается [[Вероятностное пространство| вероятностное пространство]] <tex>\langle X^m,\Sigma^m,{\mathbb P}_m\rangle</tex>. Объем выборки <tex>m</tex> является неслучайным и может считаться заданным.
-
* Выборка <tex>X^m = \{x_1,\ldots,x_m\}</tex> — это конечное множество прецедентов, выбранных из генеральной совокупности <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}. Такая выборка зазывается ''простой'' или ''независимой одинаково распределённой'' (i.i.d. — independent, identically distributed).
+
-
Пусть <tex>p(x)</tex> — плотность распределения на <tex>X</tex>.
+
Здесь <tex>X^m</tex> представляет собой множество всех выборок и выступает в роли множества элементарных исходов, <tex>\Sigma^m</tex> - подходящим образом заданная сигма-алгебра событий, <tex>{\mathbb P}_m</tex> - [[Вероятностная мера|вероятностная мера]], которая, как правило, неизвестна.
-
Тогда плотность распределения простой выборки
+
-
<tex>X^m = \{x_1,\ldots,x_m\}</tex>,
+
-
называемая также ''правдоподобием'' выборки, есть
+
-
<tex>p(X^m) = p(x_1,\ldots,x_m) = \prod_{i=1}^m p(x_i)</tex>.
+
-
Благодаря свойству независимости плотность выборки представляется в виде произведения плотностей, взятых по всем объектам.
+
-
На гипотезу простой выборки существенно опираются многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]]:
+
Выборка <tex>x^m = (x_1,\ldots,x_m)</tex> — это элемент множества <tex>X^m</tex>, то есть конечная последовательность прецедентов, выбранных из генеральной совокупности <tex>X</tex>, сформированная согласно вероятностной {{S|мере <tex>\mathbb{P}_m</tex>}}.
-
* [[метод максимума правдоподобия]], позволяющий находить оптимальные значения параметров [[Модель зависимости|модели зависимости]] по обучающей выборке;
+
 
-
* большинство [[Статистический тест|статистических тестов]];
+
Пусть <tex>p(x^m) = p(x_1,\ldots,x_m) </tex> — функция распределения на <tex>X</tex>.
-
* оценки [[Обобщающая способность|обобщающей способности]] в [[Теория вычислительного обучения|теории вычислительного обучения]].
+
Выборка зазывается ''простой'' или ''независимой одинаково распределённой'' (i.i.d. — independent, identically distributed),
 +
если <tex>p(x^m)= \prod_{i=1}^m p(x_i)</tex>.
 +
 
 +
На гипотезу простой выборки существенно опираются многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]], например,
 +
большинство [[Статистический тест|статистических тестов]], а также
 +
оценки [[Обобщающая способность|обобщающей способности]] в [[Теория вычислительного обучения|теории вычислительного обучения]].
 +
 
 +
Также существует множество методов, не предполагающих независимость выборки.
 +
Одним из таких направлений является теория случайных процессов, в частности, методы, где выборка полагается реализацией случайного процесса с дискретным временем.
 +
 
 +
Существуют и универсальные статистические методы, например,
 +
[[метод максимума правдоподобия]], позволяющий оценивать значения параметров [[Модель зависимости|модели зависимости]] по обучающей выборке.
== Обучающая и тестовая выборка ==
== Обучающая и тестовая выборка ==

Версия 12:59, 24 июня 2008

Содержание

Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.

Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором прецедентов можно управлять, то возникает задача выбора минимального числа прецедентов, содержащих максимум полезной информации, см. активное обучение, планирование экспериментов, выборочное обследование.

По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных и машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set).

Основные цели анализа данных:

  • выявление общих зависимостей, закономерностей, взаимосвязей по имеющийся частной выборке данных;
  • формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Вероятностная модель порождения данных

Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. С формальной точки зрения, это означает, что с генеральной совокупностью X связывается вероятностное пространство \langle X^m,\Sigma^m,{\mathbb P}_m\rangle. Объем выборки m является неслучайным и может считаться заданным.

Здесь X^m представляет собой множество всех выборок и выступает в роли множества элементарных исходов, \Sigma^m - подходящим образом заданная сигма-алгебра событий, {\mathbb P}_m - вероятностная мера, которая, как правило, неизвестна.

Выборка x^m = (x_1,\ldots,x_m) — это элемент множества X^m, то есть конечная последовательность прецедентов, выбранных из генеральной совокупности X, сформированная согласно вероятностной мере \mathbb{P}_m.

Пусть p(x^m) = p(x_1,\ldots,x_m) — функция распределения на X. Выборка зазывается простой или независимой одинаково распределённой (i.i.d. — independent, identically distributed), если p(x^m)= \prod_{i=1}^m p(x_i).

На гипотезу простой выборки существенно опираются многие методы статистического анализа данных и машинного обучения, например, большинство статистических тестов, а также оценки обобщающей способности в теории вычислительного обучения.

Также существует множество методов, не предполагающих независимость выборки. Одним из таких направлений является теория случайных процессов, в частности, методы, где выборка полагается реализацией случайного процесса с дискретным временем.

Существуют и универсальные статистические методы, например, метод максимума правдоподобия, позволяющий оценивать значения параметров модели зависимости по обучающей выборке.

Обучающая и тестовая выборка

Если модель зависимости построена по обучающей выборке X^m, то оценка качества этой модели, сделанная по той же выборке X^m оказывается, как правило, оптимистически смещённой. Это нежелательное явление называют переобучением. На практике оно встречается очень часто. Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимой тестовой выборке, объекты которой не использовались для обучения.

Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели. Но тогда она снова окажется оптимистически смещённой. Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.

Обучающая выборка (training sample) — выборка, по которой производится построение (оптимизация параметров) модели зависимости.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.

Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Выборочный анализ

Выборочное обследование

Выборочный контроль качества

Ссылки

Литература

Личные инструменты