Обсуждение участника:Agor153

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 22:46, 30 июня 2008

Содержание

1 Agor153, поздравляем с успешной регистрацией на MachineLearning.ru
2 Определение метода главных компонент
3 Понятие наибольшей информативности
4 Смотри также
5 Литература
6 Внешние ссылки

Agor153, поздравляем с успешной регистрацией на MachineLearning.ru

Перед началом работы рекомендуем ознакомиться с двумя основными документами:

Концепция Ресурса — короткий документ, в котором объясняется, чем наш Ресурс отличается от Википедии, как его можно использовать для совместной научной и учебной работы, и каким он должен стать в перспективе;
Инструктаж — длинный документ, в котором мы постарались собрать все сведения, необходимые для работы с Ресурсом, включая правила вики-разметки и сведения об основных категориях Ресурса.

Ссылки на эти и другие справочные материалы собраны на странице Справка.

В нашем сообществе принято представляться. Поэтому, прежде чем приступить к созданию или редактированию страниц, заполните, пожалуйста, свою страницу участника. Сделать это очень просто — достаточно кликнуть на Ваше имя Участника (оно показывается в самой верхней строке на любой странице Ресурса). Желательно, чтобы кроме обычных формальностей (фамилии, имени, отчества, места работы или учёбы, степени, звания, и т.д.) Вы указали свои научные интересы. Удобнее всего сделать это в виде списка ссылок на интересные Вам статьи или категории нашего Ресурса. Не беда, если некоторые из них окажутся «красными ссылками» — это означает, что таких статей пока нет, и у Вас есть шанс их написать. Кстати, вики-движок собирает все «красные ссылки» в список требуемых статей — в него тоже стоит заглянуть. Для создания новой статьи достаточно кликнуть по «красной ссылке» или набрать её название в строке поиска.

По любым вопросам, связанным с работой нашего Ресурса, обращайтесь к Администраторам (см. список администраторов).

С уважением,
ваш M.L.Ru

Перенёс сюда старую версию Метод главных компонент для удобства дальнейшей работы

Метод главных компонент — способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.

Определение метода главных компонент

Векторы-строки матрицы исходных данных показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения . Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка количество информации, утраченной при снижении размерности пространства.

Векторы-строки матрицы исходных данных $A$ показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения $V$ . Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка — количество информации, утраченной при снижении размерности пространства.

Одной из задач аппроксимации является задача приближения множества векторов-строк $\mathbf{a}_i$ матрицы $A$ их проекциями на некоторую новую ортогональную систему координат. Эта система отыскивается на множестве преобразований вращений $V$ начальной системы координат. При этом множество аппроксимируемых векторов $\mathbf{a}_i$ , $i=1,...,m$ , отображается в новое множество векторов $\mathbf{z}_i$ , где $\mathbf{a}_i,\mathbf{z}_i\in\mathbb{R}^n$ . Оператором отображения

$Z=A^TV$

является ортонормальная матрица $V$ , то есть $VV^T=I$ — единичная матрица. Столбцы $Z$ называются главными компонентами матрицы $A$ . Матрица $V$ строится таким образом, что среднеквадратическая разность между векторами $\mathbf{a}_i$ и проекцией этих векторов на ортогональную систему координат, заданных $\mathbf{z}_i$ минимальна. Наиболее удобным способом получения матрицы $V$ является сингулярное разложение матрицы $A$ :

$A=U\Lambda V^T.$

Метод главных компонент позволяет с помощью $k$ первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой. Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на первую главную компоненту называется критерием наибольшей информативности C.Р. Рао. Кроме того, матрица $V$ выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва. В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы $A$ .

Рао было показано, что строки матрицы $V$ есть собственные векторы ковариационной матрицы $\Sigma=A^TA,$

где матрица $A$ центрирована — из каждого ее столбца вычтено среднее значение по этому столбцу.

Понятие наибольшей информативности

Рассмотрим $n$ -мерную случайную величину $A$ с ковариационной матрицей $\Sigma=A^TA$ . Обозначим $\mu_1,\dots,\mu_n$ — соответствующие собственные числа и $\mathbf{v}_1,\dots,\mathbf{v}_n$ — собственные векторы матрицы $\Sigma$ . Заметим, что собственные числа и элементы собственных векторов матрицы $\Sigma$ всегда действительны. Тогда по теореме о собственных числах

$\Sigma=\sum_{i=1}^n\mu_i\mathbf{v}_i\mathbf{v}_i^T,$ $I=\sum_{i=1}^n\mathbf{v}_i\mathbf{v}_i^T,$ $\mathbf{v}_i^T{\Sigma}\mathbf{v}_i=\mu_i,$ $\mathbf{v}_i^T{\Sigma}\mathbf{v}_j=0,$ $i\neq{j}.$ (*)

Случайная величина $\mathbf{z}_i=\mathbf{v}_i^TA$ называется $i$ -й главной компонентой случайной величины $A$ . Матрица вращения $V$ составлена из векторов-столбцов $\mathbf{v}_1,\ldots,\mathbf{v}_n$ . Матрица главных компонент $Z=A^TV$ имеет следующие свойства.

Смотри также

Литература

Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. — С. 530-533.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.
Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [1]

Внешние ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D1%83%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%D0%B0:Agor153»

@@ Строка 1: / Строка 1: @@
 {{MediaWiki:NewUserMessage|Agor153}}
+Перенёс сюда старую версию '''Метод главных компонент''' для удобства дальнейшей работы
+'''Метод главных компонент'''&nbsp;&#151; способ снижения размерности пространства данных.
+Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности.
+При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных.
+Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в  пространство заданной размерности.
+== Определение метода главных компонент ==
+[[Изображение:Principal_Component_Analysis.gif|right|frame|Векторы-строки матрицы исходных данных&nbsp;<tex>A</tex> показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы
+вращения&nbsp;<tex>V</tex>. Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка&nbsp;&#151;
+количество информации, утраченной при снижении размерности пространства.]]
+Одной из задач аппроксимации является задача приближения множества векторов-строк&nbsp;<tex>\mathbf{a}_i</tex> матрицы&nbsp;<tex>A</tex> их проекциями на некоторую новую ортогональную систему координат.
+Эта система отыскивается на множестве преобразований вращений&nbsp;<tex>V</tex> начальной системы координат.
+При этом множество аппроксимируемых векторов&nbsp;<tex>\mathbf{a}_i</tex>, <tex>i=1,...,m</tex>, отображается в новое множество векторов <tex>\mathbf{z}_i</tex>, где <tex>\mathbf{a}_i,\mathbf{z}_i\in\mathbb{R}^n</tex>.
+Оператором отображения
+<center><tex>Z=A^TV</tex></center>
+является ортонормальная матрица&nbsp;<tex>V</tex>, то есть <tex>VV^T=I</tex>&nbsp;&#151; единичная матрица.
+Столбцы&nbsp;<tex>Z</tex> называются главными компонентами матрицы&nbsp;<tex>A</tex>.
+Матрица&nbsp;<tex>V</tex> строится таким образом, что среднеквадратическая
+разность между векторами&nbsp;<tex>\mathbf{a}_i</tex> и проекцией этих векторов на
+ортогональную систему координат, заданных&nbsp;<tex>\mathbf{z}_i</tex> минимальна.
+Наиболее удобным способом получения матрицы&nbsp;<tex>V</tex> является [[сингулярное разложение]] матрицы&nbsp;<tex>A</tex>:
+<center><tex>A=U\Lambda V^T.</tex></center>
+Метод главных компонент позволяет с помощью&nbsp;<tex>k</tex> первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
+Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на
+первую главную компоненту называется критерием наибольшей информативности C.Р.&nbsp;Рао.
+Кроме того, матрица&nbsp;<tex>V</tex> выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва.
+В&nbsp;результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы&nbsp;<tex>A</tex>.
+Рао было показано, что строки матрицы&nbsp;<tex>V</tex> есть собственные векторы ковариационной матрицы <center><tex>\Sigma=A^TA,</tex></center>
+где матрица&nbsp;<tex>A</tex> <i>центрирована</i>&nbsp;&#151; из каждого ее столбца вычтено среднее значение по этому столбцу.
+== Понятие наибольшей информативности ==
+Рассмотрим <tex>n</tex>-мерную случайную величину&nbsp;<tex>A</tex> с ковариационной
+матрицей&nbsp;<tex>\Sigma=A^TA</tex>. Обозначим&nbsp;<tex>\mu_1,\dots,\mu_n</tex>&nbsp;&#151;
+соответствующие собственные числа и <tex>\mathbf{v}_1,\dots,\mathbf{v}_n</tex>&nbsp;&#151; собственные
+векторы матрицы&nbsp;<tex>\Sigma</tex>.
+Заметим, что собственные числа и элементы собственных векторов
+матрицы&nbsp;<tex>\Sigma</tex> всегда действительны. Тогда по теореме о собственных числах
+<center><tex>\Sigma=\sum_{i=1}^n\mu_i\mathbf{v}_i\mathbf{v}_i^T,</tex>&nbsp;&nbsp;<tex>I=\sum_{i=1}^n\mathbf{v}_i\mathbf{v}_i^T,</tex></center>
+<center><tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_i=\mu_i,</tex>&nbsp;&nbsp;<tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_j=0,</tex>&nbsp;&nbsp; <tex>i\neq{j}.</tex> (*)</center>
+Случайная величина <tex>\mathbf{z}_i=\mathbf{v}_i^TA</tex> называется&nbsp;<tex>i</tex>-й главной
+компонентой случайной величины&nbsp;<tex>A</tex>. Матрица вращения&nbsp;<tex>V</tex>
+составлена из векторов-столбцов&nbsp;<tex>\mathbf{v}_1,\ldots,\mathbf{v}_n</tex>. Матрица
+главных компонент&nbsp;<tex>Z=A^TV</tex> имеет следующие свойства.
+== Смотри также ==
+* [[Сингулярное разложение]]
+* [[Интегральный индикатор]]
+* [[Обучение без учителя]]
+== Литература ==
+* Рао&nbsp;С.Р. Линейные статистические методы и их применения. М.:&nbsp;Наука. 1968.&nbsp;&#151; С.&nbsp;530-533.
+* Айвазян&nbsp;С.А., Бухштабер&nbsp;В.М., Енюков&nbsp;И.С., Мешалкин&nbsp;Л.Д. Прикладная статистика. Классификация и снижение размерности. М.:&nbsp;Финансы и статистика.&nbsp;1989.
+* Jolliffe&nbsp;I.T. Principal Component Analysis, Springer Series in Statistics. Springer.&nbsp;2002.
+* Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [http://pbil.univ-lyon1.fr/R/liens/pearson1901.pdf]
+== Внешние ссылки ==
+* [http://pca.narod.ru/ Нелинейный метод главных компонент]
+* [http://en.wikipedia.org/wiki/Principal_components_analysis Principal components analysis at wikipedia.org]
+* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент на wikipedia.org]

Обсуждение участника:Agor153

Материал из MachineLearning.

Версия 22:46, 30 июня 2008

Содержание

Agor153, поздравляем с успешной регистрацией на MachineLearning.ru

Определение метода главных компонент

Понятие наибольшей информативности

Смотри также

Литература

Внешние ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты