Прогнозирование класса третичной структуры белка по первичной (пример)
Материал из MachineLearning.
(Различия между версиями)
Строка 1: | Строка 1: | ||
== Аннотация == | == Аннотация == | ||
+ | |||
Рассматривается задача классификации третичной структуры белка по первичной. | Рассматривается задача классификации третичной структуры белка по первичной. | ||
+ | В качестве признаков предлагается использовать частоты повторения каждой аминокислоты в последовательности первичной структуры белка. | ||
Для решения задачи применяется алгоритм "Метод ближайшего соседа". | Для решения задачи применяется алгоритм "Метод ближайшего соседа". | ||
Подбираются и сравниваются параметры алгоритма. | Подбираются и сравниваются параметры алгоритма. | ||
Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма. | Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма. | ||
+ | |||
== Постановка задачи == | == Постановка задачи == | ||
+ | |||
<tex> A = \{a, r, d,n, v, h, g, e, q, i, l, k, m, p, s, y, t, w, f, c\}.</tex> | <tex> A = \{a, r, d,n, v, h, g, e, q, i, l, k, m, p, s, y, t, w, f, c\}.</tex> | ||
+ | |||
== Данные == | == Данные == |
Версия 19:47, 16 июня 2011
Содержание |
Аннотация
Рассматривается задача классификации третичной структуры белка по первичной. В качестве признаков предлагается использовать частоты повторения каждой аминокислоты в последовательности первичной структуры белка. Для решения задачи применяется алгоритм "Метод ближайшего соседа". Подбираются и сравниваются параметры алгоритма. Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.
Постановка задачи
Данные
Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
- d1dlya_ -- идентификатор эксперимента (код файла в PDB),
- a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
- slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).
Пути решения задачи
Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот.