Проклятие размерности

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Пример)
Строка 19: Строка 19:
Рассмотрим единичный интервал <tex>\[0,1\]</tex>. 100 равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01.
Рассмотрим единичный интервал <tex>\[0,1\]</tex>. 100 равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01.
-
Теперь рассмотрим 10-мерный куб. Для достижения той же степени покрытия потребуется уже <tex>10^{20}</tex> точек. То есть по сравнению с одномерным пространством, требуется в <tex>10^{18}</tex> раз больше точек.
+
Теперь рассмотрим 10-мерный куб. Для достижения той же степени покрытия потребуется уже <tex>10^{20}</tex> точек. То есть, по сравнению с одномерным пространством, требуется в <tex>10^{18}</tex> раз больше точек.
"Проклятие размерности" особенно проявляется при работе со сложными системами, которые описываются большим числом параметров.
"Проклятие размерности" особенно проявляется при работе со сложными системами, которые описываются большим числом параметров.

Версия 23:58, 4 января 2010

Данная статья является непроверенным учебным заданием.
Студент: Участник:Allegra
Преподаватель: Участник:Константин Воронцов
Срок: 8 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Проклятие размерности— проблема, связанная с увеличением количества данных в связи с ростом размерности пространства. Термин "проклятие размерности" был введен Ричардом Беллманом в 1961 году.

Содержание

Проблемы

Проблема "проклятия размерности" часто возникает в машинном обучении, например, при применении метода ближайших соседей.

С ростом размерности пространства увеличивается количество параметров, описывающих систему (например, координаты).

Это влечет за собой следующие трудности:

  • Трудоемкость вычислений
  • Необходимость хранения огромного количества данных
  • Увеличение доли шумов

Пример

Рассмотрим единичный интервал \[0,1\]. 100 равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01.

Теперь рассмотрим 10-мерный куб. Для достижения той же степени покрытия потребуется уже 10^{20} точек. То есть, по сравнению с одномерным пространством, требуется в 10^{18} раз больше точек.

"Проклятие размерности" особенно проявляется при работе со сложными системами, которые описываются большим числом параметров.

Способы борьбы с "проклятием размерности"

Основная идея при решении проблемы — понизить размерность пространства, а именно спроецировать данные на подпространство меньшей размерности.

На этой идее, например, основан метод главных компонент.

Литература

  • Bellman, R.E. 1957. Dynamic Programming. Princeton University Press, Princeton, NJ.
  • Bellman, R.E. 1961. Adaptive Control Processes. Princeton University Press, Princeton, NJ.

Ссылки

Личные инструменты