Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Примеры задач для исследовательской работы студентов)
(Лекция 6. Задачи 1Dднк и 3Dднк)
Строка 104: Строка 104:
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
'''Лексический анализ текстовых строк.'''
'''Лексический анализ текстовых строк.'''
 +
 +
[[Медиа:Tiy-L6-short.pdf|Конспект (PDF)]]
*Суперскручивание ДНК. Сайты нуклеосом.
*Суперскручивание ДНК. Сайты нуклеосом.

Версия 20:47, 14 октября 2010

Содержание

Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова (Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, обоснование, описание данных), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • «Размывание» корреляций по уровням иерархии биологических систем
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация пространственных структур белков
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска «биомаркеров» для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций с использованием онтологий терминов
  • Установление значимости соотношений терминов на основе анализа абстрактов
  • Поиск научных публикаций на основе заданной выборки абстрактов

План лекций

Лекция 1. Проблемная область - биология

Конспект (PDF)

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

Конспект (PDF)

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Конспект (PDF)

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

Конспект (PDF)

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→...

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей.

Конспект (PDF)

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк.

Конспект (PDF)

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных объектов. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 9. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 10. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы формализма проблемно-ориентированной теории.
  • О задачах 1D→3D.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→...

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... экономика?
  • Artificial life — living and artificial.
  • Клетка и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...

  1. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
  2. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
  3. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
Личные инструменты