МЛР
Материал из MachineLearning.
(→Проблемы) |
(→Проблемы) |
||
Строка 37: | Строка 37: | ||
:<tex>\parallel \alpha ^*\parallel^2 \ =\ \parallel UD^{-1}V^Ty \parallel^2 \ =\ y^TVD^{-T}U^TUD^{-1}V^Ty\ =\ y^TVD^{-2}V^Ty\ =\ \parallel D^{-1}V^Ty \parallel^2\ =\ \sum_{j=1}^{n} \frac1{\alpha _j} (v_j^T,\ y)^2.</tex> | :<tex>\parallel \alpha ^*\parallel^2 \ =\ \parallel UD^{-1}V^Ty \parallel^2 \ =\ y^TVD^{-T}U^TUD^{-1}V^Ty\ =\ y^TVD^{-2}V^Ty\ =\ \parallel D^{-1}V^Ty \parallel^2\ =\ \sum_{j=1}^{n} \frac1{\alpha _j} (v_j^T,\ y)^2.</tex> | ||
==Проблемы== | ==Проблемы== | ||
- | Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, | + | ===Мультиколлинеарность=== |
+ | Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, [[мультиколлинеарность]] матрицы F<sup>T</sup>F, которую приходится обращать. Подобные проблемы возникают, когда среди признаков f<sub>j</sub>(x) есть почти линейно зависимые.<br /> | ||
Мультиколлинеарность матрицы определяется её ''числом обусловленности'': | Мультиколлинеарность матрицы определяется её ''числом обусловленности'': | ||
:<tex>\mu (F^TF)\ =\ \parallel F^TF \parallel * \parallel (F^TF)^{-1} \parallel \ =\ \frac{\lambda _{max}}{\lambda _{min}}</tex>, где λ — собственные значения матрицы F<sup>T</sup>F. | :<tex>\mu (F^TF)\ =\ \parallel F^TF \parallel * \parallel (F^TF)^{-1} \parallel \ =\ \frac{\lambda _{max}}{\lambda _{min}}</tex>, где λ — собственные значения матрицы F<sup>T</sup>F. | ||
Строка 52: | Строка 53: | ||
# ''Преобразование признаков''. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к [[метод главных компонент|методу главных компонент]]. | # ''Преобразование признаков''. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к [[метод главных компонент|методу главных компонент]]. | ||
- | Другой важной, но существенно более простой в плане решения проблемой является | + | ===Разный масштаб признаков=== |
+ | Другой важной, но существенно более простой в плане решения проблемой является разнородность признаков. Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только "крупномасштабные" признаки. Чтобы этого избежать, делается ''стандартизация'' матрицы F:<br /> | ||
:<tex>f_{ij}\ =\ (f_{ij} - \overline{f_j})/{\sigma _j},\ j=1...n,\ i=1...l</tex>,<br /> | :<tex>f_{ij}\ =\ (f_{ij} - \overline{f_j})/{\sigma _j},\ j=1...n,\ i=1...l</tex>,<br /> | ||
где <tex>\overline{f_j}=\frac1l \sum_{i=1}^{l}f_{ij}</tex> — выборочное среднее, а <tex>\sigma _j^2=\frac1l \sum_{i=1}^{l}(f_{ij}\ -\ \overline{f_j})^2</tex> — выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица F<sup>T</sup>F после стандартизации становится корреляционной матрицей. | где <tex>\overline{f_j}=\frac1l \sum_{i=1}^{l}f_{ij}</tex> — выборочное среднее, а <tex>\sigma _j^2=\frac1l \sum_{i=1}^{l}(f_{ij}\ -\ \overline{f_j})^2</tex> — выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица F<sup>T</sup>F после стандартизации становится корреляционной матрицей. |
Версия 10:45, 5 января 2010
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |
Многомерная линейная регрессия — это линейная регрессия в n-мерном пространстве.
Содержание |
Многомерная линейная регрессия
Имеется множество объектов и множество ответов . Также имеется набор вещественнозначных признаков . Введём матричные обозначения: матрицу информации , целевой вектор , вектор параметров и диагональную матрицу весов:
Алгоритм:
- .
Оценим качество его работы на выборке методом наименьших квадратов:
- , или, в матричных обозначениях,
- .
Задача с произвольной матрицей весов легко приводится к единичной матрице весов заменой :
- .
Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.
Найдём минимум по α:
- .
Если , то можно обращать матрицу , где введено обозначение .
В таком случае функционал качества записывается в более удобной форме:
- , где — проекционная матрица:
— вектор, являющийся проекцией на .
как нарисовать значок проекционной матрицы, чтобы его можно было отличить от того, на что матрица умножается?!
Теперь рассмотрим сингулярное разложение матрицы F:
- .
В таких обозначениях:
- , а так как , то в силу диагональности матрицы D.
А решение метода наименьших квадратов запишется в следующем виде:
А так как , то
Проблемы
Мультиколлинеарность
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые.
Мультиколлинеарность матрицы определяется её числом обусловленности:
- , где λ — собственные значения матрицы FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax. Матрицу принято считать плохо обусловленной, если её число обусловленности превышает 103...106.
Последствия:
- Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
- Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
- Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.
Для борьбы с мультиколлинеарностью применяются существуют методы:
- Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
- Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
Разный масштаб признаков
Другой важной, но существенно более простой в плане решения проблемой является разнородность признаков. Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только "крупномасштабные" признаки. Чтобы этого избежать, делается стандартизация матрицы F:
- ,
где — выборочное среднее, а — выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица FTF после стандартизации становится корреляционной матрицей.