Прогнозирование класса третичной структуры белка по первичной (пример)
Материал из MachineLearning.
(ссылки) |
|||
(8 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
== Аннотация == | == Аннотация == | ||
- | Рассматривается задача классификации третичной структуры белка по | + | |
- | Для решения задачи применяется алгоритм | + | Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности. |
- | + | Эта задача является актуальной проблемой [[Биоинформатика|биоинформатики]] последние 20 лет. | |
+ | В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка. | ||
+ | Для решения задачи применяется алгоритм «[[Метод ближайших соседей]]». | ||
Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма. | Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма. | ||
+ | == Постановка задачи == | ||
+ | Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями. | ||
+ | Дана последовательность аминокислот длины <tex>$N$</tex>, | ||
+ | <tex>$\{s_i\}_{i=1}^N,\;s_i \in A \$</tex>, | ||
- | + | где <tex>$ A $</tex> — множество из двадцати аминокислот, которые кодируются уникальными буквами | |
+ | <tex>$ A = \{a,\;r,\; d,\;n,\; v,\; h,\; g,\; e,\; q,\; i,\;,l,\; k,\;m,\; p,\; s,\; y,\;t,\; w,\; f,\; c\}.$</tex> | ||
+ | |||
+ | и метки классов третичной структуры белка | ||
+ | |||
+ | <tex>$ \{y_i\}_{i=1}^7,\;y_i\in Y = \{a,\;b,\;c,\;d,\;e,\;f,\;g\}.$</tex>. | ||
+ | |||
+ | Требуется определить класс третичной структуры по первичной новых белков. | ||
== Данные == | == Данные == | ||
- | Предлагается использовать базу данных | + | Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [http://astral.berkeley.edu/scopseq-1.75.html], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[http://astral.berkeley.edu/seq.cgi?get=scopdom-seqres-gd-all;ver=1.75] |
- | Структура данных | + | Структура данных |
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} | >d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} | ||
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk | slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk | ||
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq | gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq | ||
- | * | + | * d1dlya_ — идентификатор эксперимента (код файла в PDB), |
- | * a.1.1. | + | * a.1.1.1 — классификатор белка, иерархическая структура разделена точками, |
- | * | + | * slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >). |
+ | |||
+ | == Пути решения задачи == | ||
+ | Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот. | ||
+ | [[Изображение:MorozovKNN.png|1000px]] | ||
+ | |||
+ | [[Категория:Биоинформатика]] |
Текущая версия
Содержание |
Аннотация
Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности. Эта задача является актуальной проблемой биоинформатики последние 20 лет. В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка. Для решения задачи применяется алгоритм «Метод ближайших соседей». Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.
Постановка задачи
Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями.
Дана последовательность аминокислот длины ,
,
где — множество из двадцати аминокислот, которые кодируются уникальными буквами
и метки классов третичной структуры белка
.
Требуется определить класс третичной структуры по первичной новых белков.
Данные
Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
- d1dlya_ — идентификатор эксперимента (код файла в PDB),
- a.1.1.1 — классификатор белка, иерархическая структура разделена точками,
- slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >).
Пути решения задачи
Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот.