Метод главных компонент
Материал из MachineLearning.
м |
|||
Строка 51: | Строка 51: | ||
* [[Сингулярное разложение]] | * [[Сингулярное разложение]] | ||
* [[Интегральный индикатор]] | * [[Интегральный индикатор]] | ||
+ | * [[Обучение без учителя]] | ||
== Литература == | == Литература == | ||
Строка 63: | Строка 64: | ||
[[Категория:Интеллектуальный анализ данных]] | [[Категория:Интеллектуальный анализ данных]] | ||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
+ | [[Категория:Энциклопедия анализа данных]] |
Версия 21:08, 23 марта 2008
Метод главных компонент способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
Содержание |
Определение метода главных компонент
Одной из задач аппроксимации является задача приближения множества векторов-строк матрицы их проекциями на некоторую новую ортогональную систему координат. Эта система отыскивается на множестве преобразований вращений начальной системы координат. При этом множество аппроксимируемых векторов , , отображается в новое множество векторов , где . Оператором отображения
является ортонормальная матрица , то есть единичная матрица. Столбцы называются главными компонентами матрицы . Матрица строится таким образом, что среднеквадратическая разность между векторами и проекцией этих векторов на ортогональную систему координат, заданных минимальна. Наиболее удобным способом получения матрицы является сингулярное разложение матрицы :
Метод главных компонент позволяет с помощью первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой. Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на первую главную компоненту называется критерием наибольшей информативности C.Р. Рао. Кроме того, матрица выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва. В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы .
Рао было показано, что строки матрицы есть собственные векторы ковариационной матрицыгде матрица центрирована из каждого ее столбца вычтено среднее значение по этому столбцу.
Понятие наибольшей информативности
Рассмотрим -мерную случайную величину с ковариационной матрицей . Обозначим соответствующие собственные числа и собственные векторы матрицы . Заметим, что собственные числа и элементы собственных векторов матрицы всегда действительны. Тогда по теореме о собственных числах
Случайная величина называется -й главной компонентой случайной величины . Матрица вращения составлена из векторов-столбцов . Матрица главных компонент имеет следующие свойства.
Смотри также
Литература
- Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. С. 530-533.
- Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
- Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.