Обсуждение:Проклятие размерности

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(замечания)
м (Замечания)
 
Строка 2: Строка 2:
== Замечания ==
== Замечания ==
-
* Не опомянуты очень важные вещи:
+
* Не упомянуты очень важные вещи:
** В метрических классификаторах проклятие размерности выражается в том, что расстояния во всех парах объектов стремятся к одному и тому же пределу. Это происходит из-за того, что обычно расстояния вычисляются путём усреднения модулей разностей по всем признакам. А сумма n слагаемых стремится к фиксированному пределу, когда n стремится к бесконечности (согласно закону больших чисел). В результате расстояния становятся неинформативными — все примерно одинаковыми. Чтобы этого не происходило, можно делать [[отбор признаков]], или вычислять много разных расстояний по небольшим подмножествам признаков, а потом устраивать голосование — так устроен [[алгоритм вычисления оценок]].
** В метрических классификаторах проклятие размерности выражается в том, что расстояния во всех парах объектов стремятся к одному и тому же пределу. Это происходит из-за того, что обычно расстояния вычисляются путём усреднения модулей разностей по всем признакам. А сумма n слагаемых стремится к фиксированному пределу, когда n стремится к бесконечности (согласно закону больших чисел). В результате расстояния становятся неинформативными — все примерно одинаковыми. Чтобы этого не происходило, можно делать [[отбор признаков]], или вычислять много разных расстояний по небольшим подмножествам признаков, а потом устраивать голосование — так устроен [[алгоритм вычисления оценок]].
** В линейных алгоритмах классификации и регрессии увеличение числа признаков неизбежно ведёт к мультиколлинеарности и переобучению
** В линейных алгоритмах классификации и регрессии увеличение числа признаков неизбежно ведёт к мультиколлинеарности и переобучению

Текущая версия

В целом статья принимается, но надо ещё кое-что подправить — К.В.Воронцов 21:54, 5 января 2010 (MSK)

Замечания

  • Не упомянуты очень важные вещи:
    • В метрических классификаторах проклятие размерности выражается в том, что расстояния во всех парах объектов стремятся к одному и тому же пределу. Это происходит из-за того, что обычно расстояния вычисляются путём усреднения модулей разностей по всем признакам. А сумма n слагаемых стремится к фиксированному пределу, когда n стремится к бесконечности (согласно закону больших чисел). В результате расстояния становятся неинформативными — все примерно одинаковыми. Чтобы этого не происходило, можно делать отбор признаков, или вычислять много разных расстояний по небольшим подмножествам признаков, а потом устраивать голосование — так устроен алгоритм вычисления оценок.
    • В линейных алгоритмах классификации и регрессии увеличение числа признаков неизбежно ведёт к мультиколлинеарности и переобучению
  • Общие пожелания (почти ко всем студентам):
    • желательно расставлять больше внутренних ссылок (пусть некоторые из них окажутся красными) на те понятия, которые достойны быть отдельными статьями
    • больше внешних ссылок на полезные ресурсы (начните с английской Википедии: Machine Learning)
    • не забывайте про категоризацию!!!
    • исправить тире в предложениях на —
    • исправить кавычки на «ёлочки»
    • словечко «бороться» я употреблял в лекциях как жаргон, для оживления изложения :) есть много других более подходящих слов: избегать, устранять, предотвращать
    • НЕ УВЛЕКАЙТЕСЬ ОСОБО, ОСТАВЬТЕ ВРЕМЯ НА ПОДГОТОВКУ К ЭКЗАМЕНУ!!!

— К.В.Воронцов 21:54, 5 января 2010 (MSK)

Личные инструменты