Выборка
Материал из MachineLearning.
Выборка (set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Предполагается, что по каждому прецеденту собраны (измерены) некоторые данные (data), образующие описание прецедента. Это позволяет применять к выборке методы статистического анализа данных, интеллектуального анализа данных, машинного обучения.
Термины выборка (set) и данные (data) взаимозаменяемы, и часто употребляются вместе как один термин выборка данных (data set).
Цель анализа данных состоит в выявлении зависимостей, закономерностей, взаимосвязей в данных, а также формировании статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
Содержание |
Вероятностная модель порождения данных
Многие методы статистического анализа данных и машинного обучения опираются на гипотезу о простой выборке.
Пусть — генеральная совокупность — множество всех возможных описаний прецедентов, на котором введена вероятностная мера .
Определение. Конечное множество прецедентов, выбранных из случайно, независимо, согласно вероятностной мере , называется простой выборкой (i.i.d. — independent, identically distributed).