Выборка

Материал из MachineLearning.

(Различия между версиями)

Версия 20:42, 22 апреля 2008

Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из генеральной совокупности. Предполагается, что по каждому прецеденту имеются некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для всех методов статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы, и иногда употребляются вместе как один термин выборка данных (data set).

Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Содержание

1 Вероятностная модель порождения данных
2 Обучающая, контрольная и тестовая выборки
3 Зависимые и независимые выборки
4 Выборочный анализ
5 Ссылки
6 Литература

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.

Генеральная совокупность $X$ — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) вероятностная мера $\mathbb{P}$ .

Определение. Конечное множество прецедентов, выбранных из $X$ случайно, независимо, согласно вероятностной мере $\mathbb{P}$ , называется простой выборкой (i.i.d. — independent, identically distributed).

Гипотеза простой выборки

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0»

Категории: Незавершённые статьи | Энциклопедия анализа данных | Прикладная статистика | Машинное обучение

@@ Строка 1: / Строка 1: @@
-'''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помощью определённой процедуры выбранных из [[генеральная совокупность|генеральной совокупности]] для участия в исследовании.
+'''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из '''генеральной совокупности'''.
+Предполагается, что {{S|по каждому}} прецеденту имеются некоторые ''данные'' (data), образующие ''описание прецедента''.
-Предполагается, что {{S|по каждому}} прецеденту собраны (измерены) некоторые ''данные'' (data), образующие ''описание'' прецедента. Это позволяет применять к выборке методы
+Совокупность описаний всех прецедентов выборки является входной информацией для всех методов
 [[прикладная статистика|статистического анализа данных]],
 [[интеллектуальный анализ данных|интеллектуального анализа данных]],
 [[машинное обучение|машинного обучения]].
-Термины ''выборка'' (set) и ''данные'' (data) взаимозаменяемы, и часто употребляются вместе как один термин ''выборка данных'' (data set).
+Термины ''выборка'' (sample, set) и ''данные'' (data) взаимозаменяемы, и иногда употребляются вместе как один термин ''выборка данных'' (data set).
 Цель ''анализа данных'' состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
@@ Строка 14: / Строка 14: @@
 Многие методы [[прикладная статистика|статистического анализа данных]] и [[машинное обучение|машинного обучения]] опираются на гипотезу о ''простой выборке''.
-Пусть <tex>X</tex> — ''генеральная совокупность'' — множество всех возможных описаний прецедентов, на котором введена [[вероятностная мера]] <tex>\mathbb{P}</tex>.
+''Генеральная совокупность'' <tex>X</tex> — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) [[вероятностная мера]] <tex>\mathbb{P}</tex>.
 '''Определение.'''
 Конечное множество прецедентов, выбранных из <tex>X</tex> случайно, независимо, согласно вероятностной {{S|мере <tex>\mathbb{P}</tex>}}, называется ''простой выборкой'' (i.i.d. — independent, identically distributed).
+Гипотеза простой выборки
 == Обучающая, контрольная и тестовая выборки ==

Выборка

Материал из MachineLearning.

Версия 20:42, 22 апреля 2008

Содержание

Вероятностная модель порождения данных

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты