Выборка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помо...)
м
Строка 1: Строка 1:
-
'''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помощью определённой процедуры выбранных из [[генеральная совокупность|генеральной совокупности]] для участия в исследовании.
+
'''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из '''генеральной совокупности'''.
-
 
+
Предполагается, что {{S|по каждому}} прецеденту имеются некоторые ''данные'' (data), образующие ''описание прецедента''.
-
Предполагается, что {{S|по каждому}} прецеденту собраны (измерены) некоторые ''данные'' (data), образующие ''описание'' прецедента. Это позволяет применять к выборке методы
+
Совокупность описаний всех прецедентов выборки является входной информацией для всех методов
[[прикладная статистика|статистического анализа данных]],
[[прикладная статистика|статистического анализа данных]],
[[интеллектуальный анализ данных|интеллектуального анализа данных]],
[[интеллектуальный анализ данных|интеллектуального анализа данных]],
[[машинное обучение|машинного обучения]].
[[машинное обучение|машинного обучения]].
-
Термины ''выборка'' (set) и ''данные'' (data) взаимозаменяемы, и часто употребляются вместе как один термин ''выборка данных'' (data set).
+
Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы, и иногда употребляются вместе как один термин ''выборка данных'' (data set).
Цель ''анализа данных'' состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
Цель ''анализа данных'' состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
Строка 14: Строка 14:
Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
-
Пусть <tex>X</tex> — ''генеральная совокупность'' — множество всех возможных описаний прецедентов, на котором введена [[вероятностная мера]] <tex>\mathbb{P}</tex>.
+
''Генеральная совокупность'' <tex>X</tex> — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) [[вероятностная мера]] <tex>\mathbb{P}</tex>.
'''Определение.'''
'''Определение.'''
Конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}, называется ''простой выборкой'' (i.i.d. — independent, identically distributed).
Конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}, называется ''простой выборкой'' (i.i.d. — independent, identically distributed).
 +
 +
Гипотеза простой выборки
== Обучающая, контрольная и тестовая выборки ==
== Обучающая, контрольная и тестовая выборки ==

Версия 20:42, 22 апреля 2008

Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из генеральной совокупности. Предполагается, что по каждому прецеденту имеются некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для всех методов статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы, и иногда употребляются вместе как один термин выборка данных (data set).

Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Содержание

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.

Генеральная совокупность X — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) вероятностная мера \mathbb{P}.

Определение. Конечное множество прецедентов, выбранных из X случайно, независимо, согласно вероятностной мере \mathbb{P}, называется простой выборкой (i.i.d. — independent, identically distributed).

Гипотеза простой выборки

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Личные инструменты