Выборка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Vokov (Обсуждение | вклад)
(Новая: '''Выборка''' (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помо...)
К следующему изменению →

Версия 10:01, 14 апреля 2008

Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Предполагается, что по каждому прецеденту собраны (измерены) некоторые данные (data), образующие описание прецедента. Это позволяет применять к выборке методы статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (set) и данные (data) взаимозаменяемы, и часто употребляются вместе как один термин выборка данных (data set).

Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Содержание

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.

Пусть Xгенеральная совокупность — множество всех возможных описаний прецедентов, на котором введена вероятностная мера \mathbb{P}.

Определение. Конечное множество прецедентов, выбранных из X случайно, независимо, согласно вероятностной мере \mathbb{P}, называется простой выборкой (i.i.d. — independent, identically distributed).

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Личные инструменты