Метод главных компонент

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Сделал стаб)
Строка 1: Строка 1:
-
Метод главных компонент -- один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
+
'''Метод главных компонент''' — способ снижения размерности пространства данных.
-
{{Stub}}
+
Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности.
 +
При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных.
 +
Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
 +
== Определение метода главных компонент ==
 +
[[Изображение:Principal_Component_Analysis.gif|right|frame|Векторы-строки матрицы исходных данных&nbsp;<tex>A</tex> показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы
 +
вращения&nbsp;<tex>V</tex>. Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка&nbsp;&#151;
 +
количество информации, утраченной при снижении размерности пространства.]]
 +
 +
Одной из задач аппроксимации является задача приближения множества векторов-строк&nbsp;<tex>\mathbf{a}_i</tex> матрицы&nbsp;<tex>A</tex> их проекциями на некоторую новую ортогональную систему координат.
 +
Эта система отыскивается на множестве преобразований вращений&nbsp;<tex>V</tex> начальной системы координат.
 +
При этом множество аппроксимируемых векторов&nbsp;<tex>\mathbf{a}_i</tex>, <tex>i=1,...,m</tex>, отображается в новое множество векторов <tex>\mathbf{z}_i</tex>, где <tex>\mathbf{a}_i,\mathbf{z}_i\in\mathbb{R}^n</tex>.
 +
Оператором отображения
 +
<center><tex>Z=A^TV</tex></center>
 +
является ортонормальная матрица&nbsp;<tex>V</tex>, то есть <tex>VV^T=I</tex>&nbsp;&#151; единичная матрица.
 +
Столбцы&nbsp;<tex>Z</tex> называются главными компонентами матрицы&nbsp;<tex>A</tex>.
 +
Матрица&nbsp;<tex>V</tex> строится таким образом, что среднеквадратическая
 +
разность между векторами&nbsp;<tex>\mathbf{a}_i</tex> и проекцией этих векторов на
 +
ортогональную систему координат, заданных&nbsp;<tex>\mathbf{z}_i</tex> минимальна.
 +
Наиболее удобным способом получения матрицы&nbsp;<tex>V</tex> является [[сингулярное разложение]] матрицы&nbsp;<tex>A</tex>:
 +
<center><tex>A=U\Lambda V^T.</tex></center>
 +
 +
Метод главных компонент позволяет с помощью&nbsp;<tex>k</tex> первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
 +
Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на
 +
первую главную компоненту называется критерием наибольшей информативности C.Р.&nbsp;Рао.
 +
Кроме того, матрица&nbsp;<tex>V</tex> выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва.
 +
В&nbsp;результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы&nbsp;<tex>A</tex>.
 +
Рао было показано, что строки матрицы&nbsp;<tex>V</tex> есть собственные векторы ковариационной матрицы <center><tex>\Sigma=A^TA,</tex></center>
 +
где матрица&nbsp;<tex>A</tex> <i>центрирована</i>&nbsp;&#151; из каждого ее столбца вычтено среднее значение по этому столбцу.
 +
 +
== Понятие наибольшей информативности ==
 +
 +
Рассмотрим <tex>n</tex>-мерную случайную величину&nbsp;<tex>A</tex> с ковариационной
 +
матрицей&nbsp;<tex>\Sigma=A^TA</tex>. Обозначим&nbsp;<tex>\mu_1,\dots,\mu_n</tex>&nbsp;&#151;
 +
соответствующие собственные числа и <tex>\mathbf{v}_1,\dots,\mathbf{v}_n</tex>&nbsp;&#151; собственные
 +
векторы матрицы&nbsp;<tex>\Sigma</tex>.
 +
Заметим, что собственные числа и элементы собственных векторов
 +
матрицы&nbsp;<tex>\Sigma</tex> всегда действительны. Тогда по теореме о собственных числах
 +
<center><tex>\Sigma=\sum_{i=1}^n\mu_i\mathbf{v}_i\mathbf{v}_i^T,</tex>&nbsp;&nbsp;<tex>I=\sum_{i=1}^n\mathbf{v}_i\mathbf{v}_i^T,</tex></center>
 +
 +
<center><tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_i=\mu_i,</tex>&nbsp;&nbsp;<tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_j=0,</tex>&nbsp;&nbsp; <tex>i\neq{j}.</tex> (*)</center>
 +
Случайная величина <tex>\mathbf{z}_i=\mathbf{v}_i^TA</tex> называется&nbsp;<tex>i</tex>-й главной
 +
компонентой случайной величины&nbsp;<tex>A</tex>. Матрица вращения&nbsp;<tex>V</tex>
 +
составлена из векторов-столбцов&nbsp;<tex>\mathbf{v}_1,\ldots,\mathbf{v}_n</tex>. Матрица
 +
главных компонент&nbsp;<tex>Z=A^TV</tex> имеет следующие свойства.
 +
 +
{{Заготовка}}
 +
 +
== Смотри также ==
 +
* [[Сингулярное разложение]]
 +
* [[Интегральный индикатор]]
 +
 +
== Литература ==
 +
* Рао&nbsp;С.Р. Линейные статистические методы и их применения. М.:&nbsp;Наука. 1968.&nbsp;&#151; С.&nbsp;530-533.
 +
* Айвазян&nbsp;С.А., Бухштабер&nbsp;В.М., Енюков&nbsp;И.С., Мешалкин&nbsp;Л.Д. Прикладная статистика. Классификация и снижение размерности. М.:&nbsp;Финансы и статистика.&nbsp;1989.
 +
* Jolliffe&nbsp;I.T. Principal Component Analysis, Springer Series in Statistics. Springer.&nbsp;2002.
 +
 +
== Внешние ссылки ==
 +
* [http://pca.narod.ru/ Нелинейный метод главных компонент]
 +
 +
[[Категория:Регрессионный анализ]]
[[Категория:Интеллектуальный анализ данных]]
[[Категория:Интеллектуальный анализ данных]]
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]

Версия 14:43, 16 марта 2008

Метод главных компонент — способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.

Содержание

Определение метода главных компонент

Векторы-строки матрицы исходных данных  показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения . Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка — количество информации, утраченной при снижении размерности пространства.
Векторы-строки матрицы исходных данных A показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения V. Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка — количество информации, утраченной при снижении размерности пространства.

Одной из задач аппроксимации является задача приближения множества векторов-строк \mathbf{a}_i матрицы A их проекциями на некоторую новую ортогональную систему координат. Эта система отыскивается на множестве преобразований вращений V начальной системы координат. При этом множество аппроксимируемых векторов \mathbf{a}_i, i=1,...,m, отображается в новое множество векторов \mathbf{z}_i, где \mathbf{a}_i,\mathbf{z}_i\in\mathbb{R}^n. Оператором отображения

Z=A^TV

является ортонормальная матрица V, то есть VV^T=I — единичная матрица. Столбцы Z называются главными компонентами матрицы A. Матрица V строится таким образом, что среднеквадратическая разность между векторами \mathbf{a}_i и проекцией этих векторов на ортогональную систему координат, заданных \mathbf{z}_i минимальна. Наиболее удобным способом получения матрицы V является сингулярное разложение матрицы A:

A=U\Lambda V^T.

Метод главных компонент позволяет с помощью k первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой. Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на первую главную компоненту называется критерием наибольшей информативности C.Р. Рао. Кроме того, матрица V выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва. В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы A.

Рао было показано, что строки матрицы V есть собственные векторы ковариационной матрицы
\Sigma=A^TA,

где матрица A центрирована — из каждого ее столбца вычтено среднее значение по этому столбцу.

Понятие наибольшей информативности

Рассмотрим n-мерную случайную величину A с ковариационной матрицей \Sigma=A^TA. Обозначим \mu_1,\dots,\mu_n — соответствующие собственные числа и \mathbf{v}_1,\dots,\mathbf{v}_n — собственные векторы матрицы \Sigma. Заметим, что собственные числа и элементы собственных векторов матрицы \Sigma всегда действительны. Тогда по теореме о собственных числах

\Sigma=\sum_{i=1}^n\mu_i\mathbf{v}_i\mathbf{v}_i^T,  I=\sum_{i=1}^n\mathbf{v}_i\mathbf{v}_i^T,
\mathbf{v}_i^T{\Sigma}\mathbf{v}_i=\mu_i,  \mathbf{v}_i^T{\Sigma}\mathbf{v}_j=0,   i\neq{j}. (*)

Случайная величина \mathbf{z}_i=\mathbf{v}_i^TA называется i-й главной компонентой случайной величины A. Матрица вращения V составлена из векторов-столбцов \mathbf{v}_1,\ldots,\mathbf{v}_n. Матрица главных компонент Z=A^TV имеет следующие свойства.


Смотри также

Литература

  • Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. — С. 530-533.
  • Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
  • Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.

Внешние ссылки

Личные инструменты