Задачи распознавания в биоинформатике (ВМК МГУ, К. В. Рудаков, И. Ю.Торшин)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Аннотация

Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач. Отметим, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений.

Краткое содержание

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию.

Организационная часть

Данный курс следует расматривать как область практического приложения знания методов машинного обучения. Курс является не только общеобразовательным, но и научно-исследовательским. В ходе лекций будут объявляться практические задания. Выбрав наиболее интересную для себя задачу, студенту необходимо сформулировать возможные подходы к её решению и предложить оптимальный вариант решения. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета — произвольная. Студенты могут использовать следующий формат отчета. Обязательно присутствие внятно читаемых разделов «Описание проекта» (цели проекта, обоснование, описание данных), «Математическая постановка задачи», «Описание алгоритмов» (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и «Отчет о результатах вычислительных экспериментов». Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • «Размывание» корреляций по уровням иерархии биологических систем
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга, распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация пространственных структур белков
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Описание структуры белка набором геометрических примитивов
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска «биомаркеров» для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • "Циклический" отбор признаков в генетических ассоциациях
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций с использованием онтологий терминов
  • Установление значимости соотношений терминов на основе анализа абстрактов
  • Поиск научных публикаций на основе заданной выборки абстрактов

План лекций

Лекция 1. Проблемная область — биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→…

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 7. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→...

Анализ и классификация трехмерных объектов. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 8. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы формализма проблемно-ориентированной теории.
  • О задачах 1D→3D.

Лекция 9. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • Задачи 1Dб→1Dб: сигнальные пептиды, трансмембранные спирали, домены, пост-трансляционные модификации,«функционально-значимые участки», 1D детерминанты стабильности
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 10. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и… ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 11. Молекулярная фармакология и хемоинформатика

Молекулы — связные графы, но… Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→…

Лекция 12. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 13. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 14. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети — избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и… экономика?
  • Artificial life — living and artificial.
  • Клетка и… теория электрических цепей?

Литература

В настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам настоящего курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для разностороннего ознакомления с проблемной областью, могут быть использованы приводимые ниже работы.

  1. Журавлев Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов, части I-III. // Кибернетика, 1977. № 4. С. 5–17, № 6. С. 21–27, 1978. № 2. С. 35–43.
  2. Журавлев Ю. И., Рудаков К. В. Об алгебраической коррекции процедур обработки (преобразования) информации // Проблемы прикладной математики и информатики. – М.: Наука, 1987. С. 187–198.
  3. Рудаков К. В. О применении универсальных ограничений при исследовании алгоритмов классификации // Кибернетика, 1988. № 1. С. 1–5.
  4. Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
  5. Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
  6. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
  7. Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
  8. Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
  9. Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
  10. Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
  11. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
  12. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN 1-60021-048-1.
  13. Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
Личные инструменты