Классификация пациентов с сердечно-сосудистыми заболеваниями (отчет)
Материал из MachineLearning.
(→Квази-вероятностная постановка задачи) |
(→Квази-вероятностная постановка задачи) |
||
Строка 41: | Строка 41: | ||
=== Математическое описание алгоритмов === | === Математическое описание алгоритмов === | ||
==== Квази-вероятностная постановка задачи ==== | ==== Квази-вероятностная постановка задачи ==== | ||
- | Пусть <tex>\Omega</tex> - множество объектов, каждый из которых принадлежит одному из двух классов: <tex>y(\omega) \in Y = {-1, 1}</tex>. Каждый объект <tex>\omega \in Omega</tex> характеризуется <tex>n</tex> признаками в некоторых шкалах | + | Пусть <tex>\Omega</tex> - множество объектов, каждый из которых принадлежит одному из двух классов: <tex>y(\omega) \in Y = \{-1, 1\}</tex>. Каждый объект <tex>\omega \in Omega</tex> характеризуется <tex>n</tex> признаками в некоторых шкалах |
- | <tex>x^i(\omega) \in X_i</tex>. Пусть в пространстве признаков <tex>X = X_1 \t \dots \t X_n</tex> объективно определена некоторая неизвестная гиперплоскость <tex>\sum_{i=1}^n K_i(\ | + | <tex>x^i(\omega) \in X_i</tex>. Пусть в пространстве признаков <tex>X = X_1 \t \dots \t X_n</tex> объективно определена некоторая неизвестная гиперплоскость <tex>\sum_{i=1}^n K_i(\vartheta_i, x^i) + b = 0</tex>. В качестве модели распределения объектов рассмотрим два несобственных параметрических распределения: |
- | <tex>\ | + | <tex>\varphi_{+1}(x^1, \dots, x^n | \vartheta_1, |
- | \dots, \ | + | \dots, \vartheta_n, b) = \left\{ |
\begin{array}{l} | \begin{array}{l} | ||
- | 1, ~ \sum_{i=1}^n K_i(\ | + | 1, ~ \sum_{i=1}^n K_i(\vartheta_i, x^i) + b \ge 1, \\ |
- | \exp{\bigl[-c\bigl(1 - \sum_{i=1}^n K_i(\ | + | \exp{\bigl[-c\bigl(1 - \sum_{i=1}^n K_i(\vartheta_i, x^i) - b \bigr)\bigr]}, ~ \sum_{i=1}^n K_i(\vartheta_i, x^i) + b < 1, \\ |
\end{array} | \end{array} | ||
\right.</tex> | \right.</tex> | ||
- | <tex>\ | + | <tex>\varphi_{-1}(x^1, \dots, x^n | \vartheta_1, |
- | \dots, \ | + | \dots, \vartheta_n, b) = \left\{ |
\begin{array}{l} | \begin{array}{l} | ||
- | 1, ~ \sum_{i=1}^n K_i(\ | + | 1, ~ \sum_{i=1}^n K_i(\vartheta_i, x^i) + b \le -1, \\ |
- | \exp{\bigl[-c\bigl(1 + \sum_{i=1}^n K_i(\ | + | \exp{\bigl[-c\bigl(1 + \sum_{i=1}^n K_i(\vartheta_i, x^i) + b \bigr)\bigr]}, ~ \sum_{i=1}^n K_i(\vartheta_i, x^i) + b > -1. \\ |
\end{array} | \end{array} | ||
\right.</tex> | \right.</tex> | ||
- | Далее вектор <tex>(\ | + | Далее вектор <tex>(\vartheta_1, \dots, \vartheta_n, b)</tex> рассмотрим как случайный вектор с априорной плотностью распределения <tex>\Psi(\vartheta_1, \dots, \vartheta_n, b).</tex> По формуле Байеса апостериорная плотность распределения параметров <tex>\mathbf{\vartheta}</tex> и <tex>b</tex>: <tex>P\bigl(\mathbf{\vartheta}, b| X^{\ell}\bigr)\prop \Psi(\mathbf{\vartheta}, b) \biggl(\prod_{j: y_j = +1} \varphi_{+1}(\mathbf{x_j} | \mathbf{\vartheta}, |
- | \biggl(\prod_{j: y_j = +1} \ | + | b)\biggr)\biggl(\prod_{j: y_j = -1} \varphi_{-1}(\mathbf{x_j} | |
- | b)\biggr)\biggl(\prod_{j: y_j = -1} \ | + | \mathbf{\vartheta}, b)\biggr) |
- | \mathbf{\ | + | |
</tex> | </tex> | ||
Согласно принципу максимизации апостериорной плотности распределения: | Согласно принципу максимизации апостериорной плотности распределения: | ||
- | <tex>\bigl(\hat{\ | + | <tex>\bigl(\hat{\vartheta_1}, \dots, \hat{\vartheta_n}, \hat{b}\bigr) = arg \max_{\mathbf{\vartheta}, b} \biggl[\ln \Psi(\mathbf{\vartheta}, b) + \sum_{j: y_j = +1} \ln \varphi_{+1}(\mathbf{x_j} | \mathbf{\vartheta}, |
- | b) + \sum_{j: y_j = -1} \ln \ | + | b) + \sum_{j: y_j = -1} \ln \varphi_{-1}(\mathbf{x_j} | \mathbf{\vartheta}, |
b)\biggr]</tex> | b)\biggr]</tex> | ||
Версия 15:34, 10 февраля 2010
Введение в проект
Описание проекта
Цель проекта
Цель проекта - классификация пациентов с подозрением на сердечно-сосудистые заболевания по группам риска.
Обоснование проекта
Полученные результаты могут быть использованы для предварительной диагностики заболевания у пациентов.
Описание данных
Дан список 100 пациентов с указанием их группы риска(по экспертной оценке) и результатов их анализов по 20 параметрам.
Критерии качества
Критерием качества является общее количество ошибок классификации. При этом не допускается более 1 ошибки для пациентов групп риска A1(уже прооперированные больные) и A3(больные с высокой вероятностью заболевания).
Требования к проекту
Алгоритм не должен допускать более одной ошибки по группам риска A1 и A3, а также минимальное количество ошибок по остальным группам риска.
Выполнимость проекта
Особенностями данных, которые могут затруднить выполнение проекта, являются малое количество прецедентов по некоторым группам риска(в особенности A2) и наличие пропусков в данных.
Используемые методы
Предполагается использовать линейные алгоритмы классификации, в частности SVM.
Постановка задачи
Дана обучающая выборка , где
,
.
Описание алгоритмов
Обзор литературы
Базовые предположения
Особенностью данной задачи является большая размерность признакового пространства и малое число прецедентов.
Таким образом для того, чтобы избегнуть переобучения и добиться устойчивой классификации, требуется решить задачу отбора признаков. Для этой цели предполагается использовать алгоритм Relevance Kernel Machine with supervised selectivity(далее - ), который совмещает в себе возможности решения задачи классификации и отбора признаков.
Математическое описание алгоритмов
Квази-вероятностная постановка задачи
Пусть - множество объектов, каждый из которых принадлежит одному из двух классов:
. Каждый объект
характеризуется
признаками в некоторых шкалах
. Пусть в пространстве признаков
объективно определена некоторая неизвестная гиперплоскость
. В качестве модели распределения объектов рассмотрим два несобственных параметрических распределения:
Далее вектор
рассмотрим как случайный вектор с априорной плотностью распределения
По формуле Байеса апостериорная плотность распределения параметров
и
:
Согласно принципу максимизации апостериорной плотности распределения:
Метод
Варианты или модификации
Описание системы
- Ссылка на файл system.docs
- Ссылка на файлы системы
Отчет о вычислительных экспериментах
Визуальный анализ работы алгоритма
Анализ качества работы алгоритма
Анализ зависимости работы алгоритма от параметров
Отчет о полученных результатах
Список литературы
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |