Проклятие размерности

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Данная статья является непроверенным учебным заданием.

Студент: Участник:Allegra

Преподаватель: Участник:Константин Воронцов

Срок: 8 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Проклятие размерности — проблема, связанная с экспоненциальным возрастанием количества данных из-за увеличения размерности пространства. Термин «проклятие размерности» был введен Ричардом Беллманом в 1961 году.

Проблема «проклятия размерности» часто возникает в машинном обучении, например, при применении метода ближайших соседей и метода парзеновского окна.

Содержание

1 Проблемы
2 Пример
3 Способы устранения «проклятия размерности»
4 Литература
5 Ссылки

Проблемы

«Проклятие размерности» особенно явно проявляется при работе со сложными системами, которые описываются большим числом параметров.

Это влечет за собой следующие трудности:

Трудоемкость вычислений
Необходимость хранения огромного количества данных
Увеличение доли шумов
В линейных классификаторах увеличение числа признаков ведет к проблемам мультиколлинеарности и переобучения.
В метрических классификаторах расстояния обычно вычисляются как средний модуль разностей по всем признакам. Согласно Закону Больших Чисел, сумма n слагаемых стремится в некоторому фиксированному пределу при n→∞. Таким образом, расстояния во всех парах объектов стремятся к одному и тому же значению, а значит, становятся неинформативными.

Пример

Рассмотрим единичный интервал [0,1]. 100 равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01.

Теперь рассмотрим 10-мерный куб. Для достижения той же степени покрытия потребуется уже 10²⁰ точек. То есть, по сравнению с одномерным пространством, требуется в 10¹⁸ раз больше точек.

Поэтому, например, использование переборных алгоритмов становится неэффективным при возрастании размерности системы.

Способы устранения «проклятия размерности»

Основная идея при решении проблемы — понизить размерность пространства, а именно спроецировать данные на подпространство меньшей размерности.

На этой идее, например, основан метод главных компонент.

Также можно осуществлять отбор признаков и использовать алгоритм вычисления оценок.

Литература

Bellman, R.E. 1957. Dynamic Programming. Princeton University Press, Princeton, NJ.

Bellman, R.E. 1961. Adaptive Control Processes. Princeton University Press, Princeton, NJ.

Beyer, K. 1999. When Is "Nearest Neighbor" Meaningful? Int. Conf. on Database Theory.

Powell, Warren B. 2007. Approximate Dynamic Programming: Solving the Curses of Dimensionality. Wiley, ISBN 0470171553.

Ссылки

www.chemie.uzh.ch/seminars/one_by_one/seminars/files/sparse_grids.pdf

www.galaxy.gmu.edu/ACAS/ACAS00-02/ACAS02ShortCourse/ACASCourse10.pdf

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%BA%D0%BB%D1%8F%D1%82%D0%B8%D0%B5_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8»

Категории: Непроверенные учебные задания | Классификация | Машинное обучение

@@ Строка 4: / Строка 4: @@
 Термин «проклятие размерности» был введен Ричардом Беллманом в 1961 году.
-Проблема «проклятия размерности» часто возникает в машинном обучении, например, при применении [[метод ближайших соседей|метода ближайших соседей]].
+Проблема «проклятия размерности» часто возникает в машинном обучении, например, при применении [[метод ближайших соседей|метода ближайших соседей]] и [[метод парзеновского окна|метода парзеновского окна]].
 ==Проблемы==
@@ Строка 15: / Строка 15: @@
 * Необходимость хранения огромного количества данных
 * Увеличение доли шумов
+* В [[линейный классификатор|линейных классификаторах]] увеличение числа признаков ведет к проблемам [[мультиколлинеарность|мультиколлинеарности]] и [[переобучение|переобучения]].
+* В [[метрический классификатор|метрических классификаторах]] расстояния обычно вычисляются как средний модуль разностей по всем признакам. Согласно [[Закон больших чисел|Закону Больших Чисел]], сумма n  слагаемых стремится в некоторому фиксированному пределу при n→∞. Таким образом, расстояния во всех парах объектов стремятся к одному и тому же значению, а значит, становятся неинформативными.
 ==Пример==
@@ Строка 24: / Строка 25: @@
 Поэтому, например, использование переборных алгоритмов становится неэффективным при возрастании размерности системы.
-==Способы борьбы с «проклятием размерности»==
+==Способы устранения «проклятия размерности»==
 Основная идея при решении проблемы — понизить размерность пространства, а именно спроецировать данные на подпространство меньшей размерности.
 На этой идее, например, основан [[метод главных компонент]].
+Также можно осуществлять [[отбор признаков]] и использовать [[алгоритм вычисления оценок]].
 ==Литература==

Проклятие размерности

Материал из MachineLearning.

Текущая версия

Содержание

Проблемы

Пример

Способы устранения «проклятия размерности»

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты