Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Литература)
(оформление, уточнение)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Московский физико-технический институт, Факультет управления и прикладной математики'''
 
-
Курс читается студентам 6-го курса кафедры "Интеллектуальные системы"
+
Курс читается студентам 6-го курса кафедры «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
== Аннотация ==
== Аннотация ==
-
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обощений. При такой ситуации в проблемной области, методы интеллектуального анализа данных являются основным инструментом исследователя.
+
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
-
Поэтому, ''биология является очень хорошим примером реальной прикладной области, в которую приходится "вникать" математику''.
+
Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
-
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
+
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
 +
Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
-
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к задачам распознавания и классификации неизвестным в других прикладных областях. Следует отметить, что практически для всех рассматриваемых в курсе лекций задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле, курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
+
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации.
 +
Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений.
 +
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
-
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
+
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики.
 +
Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию.
 +
Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
== Организационная часть ==
== Организационная часть ==
-
Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс лекций '''НЕ''' является ''только'' "общеобразовательным курсом" а, скорее, примером самостоятельного решения практических задач, которые студенты ''самостоятельно'' выбирают слушая лекции и решают в течение семестра.
+
Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ.
 +
Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.
-
Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче из области биологии.
+
Семестровый курс содержит 32 часа лекций.
 +
В ходе лекций будут объявляться практические задания.
 +
Курс ориентирован на активно воспринимающего материал студента.
 +
Студенты могут сами формулировать темы исследовательских задач.
 +
После выбора задачи, обсуждаются требования к работе.
 +
До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.
<!-- 32 часа практических занятий. -->
<!-- 32 часа практических занятий. -->
Строка 24: Строка 34:
=== Лекция 1. Проблемная область - биология ===
=== Лекция 1. Проблемная область - биология ===
-
Биология - проблемная область. О данных и методах из области биологии. Уровни биологических систем и уровни данных. Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации
+
Биология как проблемная область.
 +
О данных и методах из области биологии.
 +
Уровни биологических систем и уровни данных.
 +
Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
=== Лекция 2. От клеточной биологии к задачам распознавания ===
=== Лекция 2. От клеточной биологии к задачам распознавания ===
-
Клетка. Методы исследований клеток. Основные компоненты и процессы в клетках, их биологические роли и взаимодействия. ДНК. РНК. Аминокислоты и белки. Клеточная биология и система задач распознавания.
+
Клетка. Методы исследований клеток.
 +
Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
 +
ДНК. РНК. Аминокислоты и белки.
 +
Клеточная биология и система задач распознавания.
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
-
'''Биологические объекты и их описания. Базы данных в биологии.''' Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.
+
'''Биологические объекты и их описания. Базы данных в биологии.'''
-
=== Лекция 4. Задачи 1D-1D: сравнение символьных последовательностей ===
+
Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.
-
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.''' Экспериментальные методы секвенирования. Алгоритмы выравнивания и сравнения символьных последовательностей. Верификация данных из разных уровней иерархии клеточных процессов. Классификация последовательностей как подход к решению задач 1D>…
+
 
 +
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
 +
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
 +
 
 +
Экспериментальные методы секвенирования.
 +
Алгоритмы выравнивания и сравнения символьных последовательностей.
 +
Верификация данных из разных уровней иерархии клеточных процессов.
 +
Классификация последовательностей как подход к решению задач 1D→ххх.
=== Лекция 5. Задачи 1Dднк. ===
=== Лекция 5. Задачи 1Dднк. ===
-
'''Лексический анализ символьных последовательностей.''' Что такое ген? От гена к белку. эукариоты, прокариоты.Транскрипция, сплайсинг, деградация, трансляция
+
'''Лексический анализ символьных последовательностей.'''
-
Задача распознавания гена. Промотер. Задача 1Dднк>1Dрнк (сайты сплайсинга, экзоны). Задача инициации транскрипции. Сайты факторов транскрипции.
+
 
 +
Что такое ген? От гена к белку. Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
 +
Задача распознавания гена. Промотер. Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
 +
Задача инициации транскрипции. Сайты факторов транскрипции.
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
-
'''Лексический анализ текстовых строк.''' Суперскручивание ДНК. Сайты нуклеосом. Структура генома: последовательность и ориентация генов.
+
'''Лексический анализ текстовых строк.'''
-
Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации. Генетика и эпигенетика.CpG и сайты метилирования ДНК
+
 
 +
Суперскручивание ДНК. Сайты нуклеосом.
 +
Структура генома: последовательность и ориентация генов.
 +
Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
 +
Генетика и эпигенетика.
 +
CpG и сайты метилирования ДНК.
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
-
'''Классификация символьных последовательностей. База данных PDB. '''ДНК и РНК. Распознавание классов РНК. 1Dрнк>1Dб: альтернативный сплайсинг. 1Dрнк>2Dрнк: вторичная структура РНК. 1Dрнк, 2Dрнк >3Dрнк. 1Dрнк, 2Dрнк >Фрнк.
+
'''Классификация символьных последовательностей. База данных PDB.'''
-
=== Лекция 8. Рентгено- структурный анализ и ЯМР белков, задачи 3Dб-3Dб и 3Dб-2Dб ===
+
ДНК и РНК. Распознавание классов РНК.
-
'''Анализ и классификация трехмерных объектов. База данных PDB.''' Химическое строение молекул белка. Уровни структуры белка. Рентгеноструктурный анализ белков.
+
Задача 1Dрнк→1Dб: альтернативный сплайсинг.
-
Белковый ЯМР. Задачи 3D>3D. Задачи 3D>2D.
+
Задача 1Dрнк→2Dрнк: вторичная структура РНК.
 +
Задачи 1Dрнк, 2Dрнк →3Dрнк.
 +
Задачи 1Dрнк, 2Dрнк →Фрнк.
-
=== Лекция 9. Задачи 1Dб-1Dб ===
+
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
-
'''Лексический анализ символьных последовательностей. Базы данных NCBI.''' Распознавание сигнальных пептидов. Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации. Установление функциональных сайтов и «функционально-значимых участков». О 1D детерминантах стабильности белка
+
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
-
=== Лекция 10. Задача распознавания вторичной структуры- основы формализма ===
+
Химическое строение молекул белка. Уровни структуры белка.
-
'''Перекодировка символьных последовательностей. База данных PDB.''' Задачи 1Dб>2Dб. Задача 1Dб>2Dб как перевод символьных последовательностей. Постановка, данные. Основы формализма проблемно-ориентированной теории. О задачах 1D>3D
+
Рентгеноструктурный анализ белков.
 +
Белковый ЯМР.
 +
Задачи 3D→3D.
 +
Задачи 3D→2D.
-
=== Лекция 11. Задачи 1Dб-Ф и 3D-Ф и задача аннотации генома ===
+
=== Лекция 9. Задачи 1Dб→1Dб ===
-
'''Классификация символьных последовательностей.''' Задачи 3D>Л и 3D>Ф: биофизический анализ структуры белка. Задача 1D>Л и о «случайных» последовательностях. 1D>Ф задача аннотации генома, основы проблемно-ориентированного формализма.
+
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
 +
 
 +
Распознавание сигнальных пептидов.
 +
Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
 +
Установление функциональных сайтов и «функционально-значимых участков».
 +
О 1D детерминантах стабильности белка.
 +
 
 +
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
 +
'''Перекодировка символьных последовательностей. База данных PDB.'''
 +
 
 +
Задачи 1Dб→2Dб.
 +
Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
 +
Основы формализма проблемно-ориентированной теории.
 +
О задачах 1D→3D.
 +
 
 +
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
 +
'''Классификация символьных последовательностей.'''
 +
 
 +
Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
 +
Задача 1D→Л и о «случайных» последовательностях.
 +
1D>Ф задача аннотации генома, основы проблемно-ориентированного формализма.
=== Лекция 12. Анализ и синтез биологических сетей ===
=== Лекция 12. Анализ и синтез биологических сетей ===
-
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.''' Молекулярные сети клетки. Функциональная геномика, задача синтеза сетей и... ловушки. Транскриптомика,
+
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
-
протеомика, метаболомика. Исследования «стимул-отклик» в масштабе клетки. Задача поиска «биомаркеров» для медицинской диагностики.
+
 
 +
Молекулярные сети клетки.
 +
Функциональная геномика, задача синтеза сетей и... ловушки.
 +
Транскриптомика, протеомика, метаболомика.
 +
Исследования «стимул-отклик» в масштабе клетки.
 +
Задача поиска «биомаркеров» для медицинской диагностики.
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
-
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD. '''Физико-химическое моделирование и хемоинформатика. Формула > 3Dл. Задачи 3Dл - 3Dл . 3Dл >физ.-хим. свойства. 3Dл >белки-рецепторы. 3Dл >константы взаимодействия. Хемоинформатика, задачи формула>...
+
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.'''
 +
 
 +
Физико-химическое моделирование и хемоинформатика.
 +
Формула→3Dл.
 +
Задачи 3Dл→3Dл.
 +
3Dл→физ.-хим. свойства.
 +
3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
 +
Хемоинформатика, задачи формула→ххх.
=== Лекция 14. Биомедицинские и генетические исследования ===
=== Лекция 14. Биомедицинские и генетические исследования ===
-
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).''' Главная последовательность (генетика>экспрессия, экспрессия>уровни/акт белков, генетика> уровни/акт белков, уровни белков>метаболиты, метаболиты>симптоматика, симптоматика>симптоматика, симптоматика>заболевание). Генетика (генетика>метаболиты, генетика>симптоматика, генетика>заболевание). Поиск биомаркеров (пост-геномная диагностика): экспрессия>заболевание,
+
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
-
уровни белков>заболевание, метаболиты>заболевание.
+
 
 +
Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
 +
Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
 +
Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.
=== Лекция 15. Анализ текстов, использование баз данных ===
=== Лекция 15. Анализ текстов, использование баз данных ===
-
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.''' Биомедицина. Нахождение надежных диагностических исследований. Извлечение информации о генетических ассоциациях. Выяснение диагноза по заключению врача. Информатика («вычислительная лингвистика»).
+
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
-
Контекст-зависимая расшифровка аббревиатур. Концептуализация абстрактов с использованием онтологий терминов. Установление значимости соотношений терминов. Установление функциональных взаимоотношений между белками и генами. Замечание о научной этике. Экспертный анализ.
+
 
 +
Биомедицина.
 +
Нахождение надежных диагностических исследований.
 +
Извлечение информации о генетических ассоциациях.
 +
Выяснение диагноза по заключению врача.
 +
Информатика («вычислительная лингвистика»).
 +
Контекст-зависимая расшифровка аббревиатур.
 +
Концептуализация абстрактов с использованием онтологий терминов.
 +
Установление значимости соотношений терминов.
 +
Установление функциональных взаимоотношений между белками и генами.
 +
Замечание о научной этике.
 +
Экспертный анализ.
=== Лекция 16. Био-логика и алгоритмы ===
=== Лекция 16. Био-логика и алгоритмы ===
-
'''О поиске новых принципов построения алгоритмов.''' Коллектив – индивид - коллектив. Нейроны и их реальные сети – избегая редукционизм. «Генетические алгоритмы» и генетика. Клетка и ... экономическая система. Artificial life – living and artificial. Клетки и ... теория электрических цепей?
+
'''О поиске новых принципов построения алгоритмов.'''
-
== Литература ==
+
Коллектив — индивид — коллектив.
 +
Нейроны и их реальные сети – избегая редукционизм.
 +
«Генетические алгоритмы» и генетика.
 +
Клетка и... экономическая система.
 +
Artificial life — living and artificial.
 +
Клетки и... теория электрических цепей?
-
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако, данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
+
== Литература ==
-
 
+
-
Torshin I.Yu. '''Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine.''' Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
+
-
Torshin I.Yu. '''Bioinformatics in the post-genomic era: physiology and medicine.''' Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
+
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
 +
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
 +
Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора.
 +
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины.
 +
Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
-
Torshin I.Yu. '''Bioinformatics in the Post-Genomic Era: The Role of Biophysics''', 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
+
#''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine.''' Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
 +
#''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: physiology and medicine.''' Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
 +
#''Torshin I.Yu.'' '''Bioinformatics in the Post-Genomic Era: The Role of Biophysics''', 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 15:09, 12 сентября 2010

Содержание

Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.


План лекций

Лекция 1. Проблемная область - биология

Биология как проблемная область. О данных и методах из области биологии. Уровни биологических систем и уровни данных. Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

Клетка. Методы исследований клеток. Основные компоненты и процессы в клетках, их биологические роли и взаимодействия. ДНК. РНК. Аминокислоты и белки. Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Биологические объекты и их описания. Базы данных в биологии.

Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

Экспериментальные методы секвенирования. Алгоритмы выравнивания и сравнения символьных последовательностей. Верификация данных из разных уровней иерархии клеточных процессов. Классификация последовательностей как подход к решению задач 1D→ххх.

Лекция 5. Задачи 1Dднк.

Лексический анализ символьных последовательностей.

Что такое ген? От гена к белку. Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция. Задача распознавания гена. Промотер. Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны). Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк.

Суперскручивание ДНК. Сайты нуклеосом. Структура генома: последовательность и ориентация генов. Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации. Генетика и эпигенетика. CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

ДНК и РНК. Распознавание классов РНК. Задача 1Dрнк→1Dб: альтернативный сплайсинг. Задача 1Dрнк→2Dрнк: вторичная структура РНК. Задачи 1Dрнк, 2Dрнк →3Dрнк. Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных объектов. База данных PDB.

Химическое строение молекул белка. Уровни структуры белка. Рентгеноструктурный анализ белков. Белковый ЯМР. Задачи 3D→3D. Задачи 3D→2D.

Лекция 9. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

Распознавание сигнальных пептидов. Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации. Установление функциональных сайтов и «функционально-значимых участков». О 1D детерминантах стабильности белка.

Лекция 10. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

Задачи 1Dб→2Dб. Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные. Основы формализма проблемно-ориентированной теории. О задачах 1D→3D.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка. Задача 1D→Л и о «случайных» последовательностях. 1D>Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

Молекулярные сети клетки. Функциональная геномика, задача синтеза сетей и... ловушки. Транскриптомика, протеомика, метаболомика. Исследования «стимул-отклик» в масштабе клетки. Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

Физико-химическое моделирование и хемоинформатика. Формула→3Dл. Задачи 3Dл→3Dл. 3Dл→физ.-хим. свойства. 3Dл→белки-рецепторы. 3Dл→константы взаимодействия. Хемоинформатика, задачи формула→ххх.

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание). Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание). Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

Биомедицина. Нахождение надежных диагностических исследований. Извлечение информации о генетических ассоциациях. Выяснение диагноза по заключению врача. Информатика («вычислительная лингвистика»). Контекст-зависимая расшифровка аббревиатур. Концептуализация абстрактов с использованием онтологий терминов. Установление значимости соотношений терминов. Установление функциональных взаимоотношений между белками и генами. Замечание о научной этике. Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

Коллектив — индивид — коллектив. Нейроны и их реальные сети – избегая редукционизм. «Генетические алгоритмы» и генетика. Клетка и... экономическая система. Artificial life — living and artificial. Клетки и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...

  1. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
  2. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
  3. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
Личные инструменты