Участник:LuarSoll/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Отступ''' (margin) - величина, показывающая степень типичности объекта ==Основная формула== Отступ объект...)
Строка 1: Строка 1:
-
'''Отступ''' (margin) - величина, показывающая степень типичности объекта
+
'''Отступ''' (margin) объекта из [[Обучающая выборка|обучающей выборки]] - величина, показывающая степень типичности этого объекта
==Основная формула==
==Основная формула==
-
Отступ объекта <tex>x_i \in X^l</tex> относительно алгоритма классификации, имеющего вид <tex>a(u)=\mathrm{arg}\max_{y\in Y}\Gamma_{y}(u)</tex> - определяется формулой <tex>M(x_i)=\Gamma_y_i(x_i)-\max{y \in Y \ y_i}\Gamma_y(x_i)</tex>
+
Отступ объекта <tex>x_i \in X^l</tex> относительно [[Алгоритм|алгоритма]] [[Классификация|классификации]], имеющего вид <tex>a(u)=\mathrm{arg}\max_{y\in Y}\Gamma_{y}(u)</tex> - определяется формулой <tex>M(x_i)=\Gamma_y_i(x_i)-\max_{y \in Y \setminus y_i}\Gamma_y(x_i)</tex>
 +
 
 +
==Степени типичности объектов==
 +
*''Эталонные объекты'' - объекты, имеющие большой положительный отступ, плотно окруженные объектами своего класса и являющиеся наиболее типичными его представителями.
 +
*''Неинформативные объекты'' - объекты, имеющие положительный отступ. Изъятие их из выборки не влияет на качество [[Классификация|классификации]].
 +
*''Пограничные объекты'' - объекты с отступом, близким к нулю. [[Классификация]] пограничных ответов неустойчива, малые изменения [[Метрика|метрики]], параметров [[Алгоритм|алгоритма]] [[Классификация|классификации]] или обучающей выборки могут изменить их классификацию.
 +
*''Ошибочные объекты'' - объекты с отрицательным отступом. На них данный [[Алгоритм|алгоритм]] [[Классификация|классификации]] дает ошибку
 +
*''Шумовые объекты'' (''выбросы'') - объекты с большим по модулю отрицательным отступом. Они плотно окружены объектами другого класса и возникают из-за ошибок или недостатка информации в исходных данных.
 +
 
 +
==Применение отступов==
 +
===Для отбора эталонных объектов===
 +
*Из [[Обучающая выборка|обучающей выборки]] необходимо изъять ''шумовые объекты'', так как их наличие только ухудшает [[Классификация|классификацию]]
 +
*Без снижения качества [[Классификация|классификации]] из [[Обучающая выборка|обучающей выборки]] можно изъять ''неинформативные объекты'', что уменьшит объем хранимой информации и время на ее обработку
 +
===Для оценки качества выборки===
 +
*Если большая часть объектов [[Обучающая выборка|обучающей выборки]] имеет положительные отступы, выборку можно считать разделимой
 +
*Если в выборке много объектов с отрицательными отступами, гипотеза компактности классов не выполняется и применение метрических алгоритмов с данной метрикой для данной задачи классификации является нецелесообразным
 +
*Если в выборке много объектов с отступами, близкими к нулю, классификация неустойчива

Версия 15:48, 26 декабря 2009

Отступ (margin) объекта из обучающей выборки - величина, показывающая степень типичности этого объекта

Содержание

Основная формула

Отступ объекта x_i \in X^l относительно алгоритма классификации, имеющего вид a(u)=\mathrm{arg}\max_{y\in Y}\Gamma_{y}(u) - определяется формулой M(x_i)=\Gamma_y_i(x_i)-\max_{y \in Y \setminus y_i}\Gamma_y(x_i)

Степени типичности объектов

  • Эталонные объекты - объекты, имеющие большой положительный отступ, плотно окруженные объектами своего класса и являющиеся наиболее типичными его представителями.
  • Неинформативные объекты - объекты, имеющие положительный отступ. Изъятие их из выборки не влияет на качество классификации.
  • Пограничные объекты - объекты с отступом, близким к нулю. Классификация пограничных ответов неустойчива, малые изменения метрики, параметров алгоритма классификации или обучающей выборки могут изменить их классификацию.
  • Ошибочные объекты - объекты с отрицательным отступом. На них данный алгоритм классификации дает ошибку
  • Шумовые объекты (выбросы) - объекты с большим по модулю отрицательным отступом. Они плотно окружены объектами другого класса и возникают из-за ошибок или недостатка информации в исходных данных.

Применение отступов

Для отбора эталонных объектов

Для оценки качества выборки

  • Если большая часть объектов обучающей выборки имеет положительные отступы, выборку можно считать разделимой
  • Если в выборке много объектов с отрицательными отступами, гипотеза компактности классов не выполняется и применение метрических алгоритмов с данной метрикой для данной задачи классификации является нецелесообразным
  • Если в выборке много объектов с отступами, близкими к нулю, классификация неустойчива
Личные инструменты