Классификация пациентов с сердечно-сосудистыми заболеваниями (отчет)

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 14:07, 10 февраля 2010

Введение в проект

Описание проекта

Цель проекта

Цель проекта - классификация пациентов с подозрением на сердечно-сосудистые заболевания по группам риска.

Обоснование проекта

Полученные результаты могут быть использованы для предварительной диагностики заболевания у пациентов.

Описание данных

Дан список 100 пациентов с указанием их группы риска(по экспертной оценке) и результатов их анализов по 20 параметрам.

Критерии качества

Критерием качества является общее количество ошибок классификации. При этом не допускается более 1 ошибки для пациентов групп риска A1(уже прооперированные больные) и A3(больные с высокой вероятностью заболевания).

Требования к проекту

Алгоритм не должен допускать более одной ошибки по группам риска A1 и A3, а также минимальное количество ошибок по остальным группам риска.

Выполнимость проекта

Особенностями данных, которые могут затруднить выполнение проекта, являются малое количество прецедентов по некоторым группам риска(в особенности A2) и наличие пропусков в данных.

Используемые методы

Предполагается использовать линейные алгоритмы классификации, в частности SVM.

Постановка задачи

Дана обучающая выборка $X^\ell = (x_i, y_i)_{i=1}^\ell, ~~ \ell = 66$ , где $x_i \in \mathbb{R}^n, n = 20$ , $y_i \in \{A_1, A_3, B_1, B_2\}$ .

Для каждой из задач двуклассовой классификации(отделение одного класса от трех остальных и отделение пар классов друг от друга) перекодируем классы так, что $y_i \in \{-1, 1\}$ . Требуется подобрать вектор параметров $\mathbf{w}$ оптимальной разделяющей гиперплоскости, который минимизирует функционал скользящего контроля: $LOO(\mathbf{w},X^\ell) = \sum_{i=1}^\ell [a(x_i, X^\ell\backslash x_i, \mathbf{w}) \neq y_i] \rightarrow \min_{\mathbf{w}}$ , где $a(x) = [\sum_{j=1}^n w_jx^j-w_0 > 0]$

Описание алгоритмов

Обзор литературы

Базовые предположения

Особенностью данной задачи является большая размерность признакового пространства и малое число прецедентов. Таким образом для того, чтобы избегнуть переобучения и добиться устойчивой классификации, требуется решить задачу отбора признаков. Для этой цели предполагается использовать алгоритм Relevance Kernel Machine with supervised selectivity(далее - $\mu - RKM$ ), который совмещает в себе возможности решения задачи классификации и отбора признаков.

Математическое описание алгоритмов

Квази-вероятностная постановка задачи

Пусть в пространстве признаков объективно определена некоторая неизвестная наблюдателю гиперплоскость

Метод $\mu - RKM$

Варианты или модификации

Описание системы

Ссылка на файл system.docs
Ссылка на файлы системы

Отчет о вычислительных экспериментах

Визуальный анализ работы алгоритма

Анализ качества работы алгоритма

Анализ зависимости работы алгоритма от параметров

Отчет о полученных результатах

Список литературы

Данная статья является непроверенным учебным заданием.

Студент: Участник:Максим Панов

Преподаватель: Участник:В.В. Стрижов

Срок: 15 декабря 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F_%D0%BF%D0%B0%D1%86%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D1%81_%D1%81%D0%B5%D1%80%D0%B4%D0%B5%D1%87%D0%BD%D0%BE-%D1%81%D0%BE%D1%81%D1%83%D0%B4%D0%B8%D1%81%D1%82%D1%8B%D0%BC%D0%B8_%D0%B7%D0%B0%D0%B1%D0%BE%D0%BB%D0%B5%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%D0%BC%D0%B8_%28%D0%BE%D1%82%D1%87%D0%B5%D1%82%29»

Категория: Непроверенные учебные задания

@@ Строка 28: / Строка 28: @@
 == Постановка задачи ==
 Дана обучающая выборка <tex>X^\ell = (x_i, y_i)_{i=1}^\ell, ~~ \ell = 66</tex>, где
-<tex>x_i \in \mathbb{R}^{20}</tex>, <tex>y_i \in \{A_1, A_3, B_1, B_2\}</tex>.
+<tex>x_i \in \mathbb{R}^n, n = 20</tex>, <tex>y_i \in \{A_1, A_3, B_1, B_2\}</tex>.
-Для каждой из задач двуклассовой классификации(отделение одного класса от трех остальных и отделение пар классов друг от друга) перекодируем классы так, что <tex>y_i \in \{-1, 1\}</tex>. Требуется подобрать вектор параметров <tex>\mathbf{w}</tex> оптимальной разделяющей гиперплоскости, который минимизирует функционал скользящего контроля: <center><tex>LOO(\mathbf{w},X^\ell) = \sum_{i=1}^\ell [a(x_i, X^\ell\backslash x_i, \mathbf{w}) \neq y_i] \rightarrow \min_{\mathbf{w}}</tex>, где <tex>a(x) = [\sum_{j=1}^{20}w_jx^j-w_0 > 0]</tex></center>
+Для каждой из задач двуклассовой классификации(отделение одного класса от трех остальных и отделение пар классов друг от друга) перекодируем классы так, что <tex>y_i \in \{-1, 1\}</tex>. Требуется подобрать вектор параметров <tex>\mathbf{w}</tex> оптимальной разделяющей гиперплоскости, который минимизирует функционал скользящего контроля: <center><tex>LOO(\mathbf{w},X^\ell) = \sum_{i=1}^\ell [a(x_i, X^\ell\backslash x_i, \mathbf{w}) \neq y_i] \rightarrow \min_{\mathbf{w}}</tex>, где <tex>a(x) = [\sum_{j=1}^n w_jx^j-w_0 > 0]</tex></center>
 == Описание алгоритмов ==