Метод главных компонент
Материал из MachineLearning.
м |
м (оформление) |
||
Строка 45: | Строка 45: | ||
составлена из векторов-столбцов <tex>\mathbf{v}_1,\ldots,\mathbf{v}_n</tex>. Матрица | составлена из векторов-столбцов <tex>\mathbf{v}_1,\ldots,\mathbf{v}_n</tex>. Матрица | ||
главных компонент <tex>Z=A^TV</tex> имеет следующие свойства. | главных компонент <tex>Z=A^TV</tex> имеет следующие свойства. | ||
- | |||
- | |||
== Смотри также == | == Смотри также == | ||
Строка 60: | Строка 58: | ||
== Внешние ссылки == | == Внешние ссылки == | ||
* [http://pca.narod.ru/ Нелинейный метод главных компонент] | * [http://pca.narod.ru/ Нелинейный метод главных компонент] | ||
+ | |||
+ | {{Заготовка}} | ||
[[Категория:Регрессионный анализ]] | [[Категория:Регрессионный анализ]] |
Версия 10:28, 26 марта 2008
Метод главных компонент способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
Содержание |
Определение метода главных компонент

Одной из задач аппроксимации является задача приближения множества векторов-строк матрицы
их проекциями на некоторую новую ортогональную систему координат.
Эта система отыскивается на множестве преобразований вращений
начальной системы координат.
При этом множество аппроксимируемых векторов
,
, отображается в новое множество векторов
, где
.
Оператором отображения
является ортонормальная матрица , то есть
единичная матрица.
Столбцы
называются главными компонентами матрицы
.
Матрица
строится таким образом, что среднеквадратическая
разность между векторами
и проекцией этих векторов на
ортогональную систему координат, заданных
минимальна.
Наиболее удобным способом получения матрицы
является сингулярное разложение матрицы
:
Метод главных компонент позволяет с помощью первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на
первую главную компоненту называется критерием наибольшей информативности C.Р. Рао.
Кроме того, матрица
выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва.
В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы
.
где матрица центрирована из каждого ее столбца вычтено среднее значение по этому столбцу.
Понятие наибольшей информативности
Рассмотрим -мерную случайную величину
с ковариационной
матрицей
. Обозначим
соответствующие собственные числа и
собственные
векторы матрицы
.
Заметим, что собственные числа и элементы собственных векторов
матрицы
всегда действительны. Тогда по теореме о собственных числах
Случайная величина называется
-й главной
компонентой случайной величины
. Матрица вращения
составлена из векторов-столбцов
. Матрица
главных компонент
имеет следующие свойства.
Смотри также
Литература
- Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. С. 530-533.
- Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
- Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.