Выборка

Материал из MachineLearning.

Версия от 10:01, 14 апреля 2008; Vokov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Предполагается, что по каждому прецеденту собраны (измерены) некоторые данные (data), образующие описание прецедента. Это позволяет применять к выборке методы статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (set) и данные (data) взаимозаменяемы, и часто употребляются вместе как один термин выборка данных (data set).

Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.

Содержание

Вероятностная модель порождения данных

Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.

Пусть Xгенеральная совокупность — множество всех возможных описаний прецедентов, на котором введена вероятностная мера \mathbb{P}.

Определение. Конечное множество прецедентов, выбранных из X случайно, независимо, согласно вероятностной мере \mathbb{P}, называется простой выборкой (i.i.d. — independent, identically distributed).

Обучающая, контрольная и тестовая выборки

Зависимые и независимые выборки

Выборочный анализ

Ссылки

Литература

Личные инструменты