Выборка

Материал из MachineLearning.

Перейти к: навигация, поиск

Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), с помощью определённой процедуры выбранных из генеральной совокупности. Предполагается, что по каждому прецеденту имеются некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для всех методов статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы, и иногда употребляются вместе как один термин выборка данных (data set).

Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Содержание

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.

Генеральная совокупность X — это множество всех возможных описаний прецедентов, на котором введена некоторая (возможно, неизвестная) вероятностная мера \mathbb{P}.

Определение. Конечное множество прецедентов, выбранных из X случайно, независимо, согласно вероятностной мере \mathbb{P}, называется простой выборкой (i.i.d. — independent, identically distributed).

Гипотеза простой выборки

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Личные инструменты