Выборка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
-
'''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из '''генеральной совокупности'''.
+
{{TOCright}}
-
Предполагается, что {{S|по каждому}} прецеденту имеются некоторые ''данные'' (data), образующие ''описание прецедента''.
+
'''Выборка''' (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого '''генеральной совокупностью'''.
-
Совокупность описаний всех прецедентов выборки является входной информацией для всех методов
+
 
 +
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен.
 +
Если же выбором прецедентов можно управлять, то возникает задача выбора минимального числа прецедентов, содержащих максимум полезной информации, см.
 +
[[активное обучение]],
 +
[[планирование экспериментов]],
 +
[[выборочное обследование]].
 +
 
 +
По каждому прецеденту собираются (измеряются) некоторые ''данные'' (data), образующие ''описание прецедента''.
 +
Совокупность описаний всех прецедентов выборки является входной информацией для
[[прикладная статистика|статистического анализа данных]],
[[прикладная статистика|статистического анализа данных]],
-
[[интеллектуальный анализ данных|интеллектуального анализа данных]],
+
[[интеллектуальный анализ данных|интеллектуального анализа данных]] и
[[машинное обучение|машинного обучения]].
[[машинное обучение|машинного обучения]].
-
Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы, и иногда употребляются вместе как один термин ''выборка данных'' (data set).
+
Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы;
 +
иногда они употребляются вместе как один термин ''выборка данных'' (data set).
-
Цель ''анализа данных'' состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
+
Основные цели ''анализа данных'':
 +
* выявление общих зависимостей, закономерностей, взаимосвязей по имеющийся частной выборке данных;
 +
* формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
== Вероятностная модель порождения данных ==
== Вероятностная модель порождения данных ==
Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
 +
Предполагается, что ''генеральная совокупность'' <tex>X</tex> является [[Вероятностное пространство|вероятностным пространством]] с некоторой (возможно, неизвестной) [[Вероятностная мера|вероятностной мерой]] <tex>\mathbb{P}</tex>.
-
''Генеральная совокупность'' <tex>X</tex> — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) [[вероятностная мера]] <tex>\mathbb{P}</tex>.
+
'''Простая выборка''' (i.i.d. sample — independent, identically distributed sample) — конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}.
-
'''Определение.'''
+
Пусть <tex>p(x)</tex> — плотность распределения на <tex>X</tex>.
-
Конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}, называется ''простой выборкой'' (i.i.d. — independent, identically distributed).
+
Тогда плотность распределения простой выборки
 +
<tex>X^m = \{x_1,\ldots,x_m\}</tex>,
 +
называемая также ''правдоподобием'' выборки, есть
 +
<tex>p(X^m) = p(x_1,\ldots,x_m) = \prod_{i=1}^m p(x_i)</tex>.
 +
Благодаря свойству независимости плотность выборки представляется в виде произведения плотностей, взятых для отдельных объектов.
-
Гипотеза простой выборки
+
На гипотезе простой выборки существенно основаны:
 +
* [[метод максимума правдоподобия]], позволяющий находить оптимальные значения параметров [[Модель зависимости|модели зависимости]] по имеющейся выборке данных;
 +
* многие [[Статистический тест|статистические тесты]];
 +
* оценки [[Обобщающая способность|обобщающей способности]] в [[Теория вычислительного обучения|теории вычислительного обучения]].
-
== Обучающая, контрольная и тестовая выборки ==
+
== Обучающая и тестовая выборка ==
-
== Зависимые и независимые выборки ==
+
Оценка качества модели, построенной по обучающей выборке, на той же самой выборке, как правило, оказывается оптимистически смещённой.
 +
Это нежелательное явление называют [[переобучение]]м.
 +
На практике оно встречается очень часто.
 +
Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимой тестовой выборке, объекты которой не использовались для обучения.
 +
Однако, если оценка, сделанная по тестовой выборке, применяется для выбора наилучшей модели, то она снова оказывается оптимистически смещённой.
 +
Для получения немсещённой оценки выбранной модели приходится выделять третью выборку данных.
 +
 
 +
'''Обучающая выборка''' (training sample) — выборка, по которой производится построение (оптимизация параметров) [[Модель зависимости|модели зависимости]].
 +
 
 +
'''Тестовая (или контрольная) выборка''' (test sample) — выборка, по которой оценивается качество построенной [[Модель зависимости|модели]]. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является [[Несмещённая оценка|несмещённой]].
 +
 
 +
'''Проверочная выборка''' (validation sample) — выборка, по которой осуществляется [[выбор модели|выбор наилучшей модели]] из множества моделей, построенных по обучающей выборке.
== Выборочный анализ ==
== Выборочный анализ ==
 +
 +
=== Выборочное обследование ===
 +
 +
=== Выборочный контроль качества ===
== Ссылки ==
== Ссылки ==

Версия 19:03, 24 апреля 2008

Содержание

Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.

Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором прецедентов можно управлять, то возникает задача выбора минимального числа прецедентов, содержащих максимум полезной информации, см. активное обучение, планирование экспериментов, выборочное обследование.

По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных и машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set).

Основные цели анализа данных:

  • выявление общих зависимостей, закономерностей, взаимосвязей по имеющийся частной выборке данных;
  • формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке. Предполагается, что генеральная совокупность X является вероятностным пространством с некоторой (возможно, неизвестной) вероятностной мерой \mathbb{P}.

Простая выборка (i.i.d. sample — independent, identically distributed sample) — конечное множество прецедентов, выбранных из X случайно, независимо, согласно вероятностной мере \mathbb{P}.

Пусть p(x) — плотность распределения на X. Тогда плотность распределения простой выборки X^m = \{x_1,\ldots,x_m\}, называемая также правдоподобием выборки, есть p(X^m) = p(x_1,\ldots,x_m) = \prod_{i=1}^m p(x_i). Благодаря свойству независимости плотность выборки представляется в виде произведения плотностей, взятых для отдельных объектов.

На гипотезе простой выборки существенно основаны:

Обучающая и тестовая выборка

Оценка качества модели, построенной по обучающей выборке, на той же самой выборке, как правило, оказывается оптимистически смещённой. Это нежелательное явление называют переобучением. На практике оно встречается очень часто. Хорошую эмпирическую оценку качества построенной модели даёт её проверка на независимой тестовой выборке, объекты которой не использовались для обучения. Однако, если оценка, сделанная по тестовой выборке, применяется для выбора наилучшей модели, то она снова оказывается оптимистически смещённой. Для получения немсещённой оценки выбранной модели приходится выделять третью выборку данных.

Обучающая выборка (training sample) — выборка, по которой производится построение (оптимизация параметров) модели зависимости.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.

Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Выборочный анализ

Выборочное обследование

Выборочный контроль качества

Ссылки

Литература

Личные инструменты