Технология информационного анализа электрокардиосигналов
Материал из MachineLearning.
|
Технология информационного анализа электрокардиосигналов — технология диагностики многих заболеваний внутренних органов человека по одной электрокардиограмме, основанная на теории информационной функции сердца В.М.Успенского.
Теория информационной функции сердца
Технология информационного анализа электрокардиосигналов основана на следующих положениях теории информационной функции сердца:
- Сердце выполняет важную информационную функцию, генерируя во внутреннюю среду организма сигналы с семантикой здоровья и заболеваний. Эта функция осуществляется сердцем постоянно, обладает высокой степенью самостоятельности и независима от того состояния, в котором находится человек: во время сна, бодрствования, активного отдыха и любого вида деятельности.
- Амплитуды и интервалы кардиоимпульсов подвергаются амплитудной и частотно-фазовой модуляции под воздействием сложного комплекса взаимосвязанных процессов в организме. Наблюдаемая динамика кардиоимпульсов носит иррегулярный характер, за которым скрываются паттерны различных процессов, в том числе паталогических. Механизм модуляции является единым для электрических, магнитных и гидродинамических импульсов, генерируемых сердцем.
- Технология информационного анализа направлена на демодуляцию сигналов, генерируемых сердцем, и выявление тех паттернов, которые связаны с различными заболеваниями.
Опыт пульсовой диагностики, зародившейся в Древнем Китае, также даёт основания предполагать, что кардиоимпульсы несут информацию о заболеваниях различных органов.
Этапы анализа данных
Этап предварительной обработки ЭКГ-сигнала состоит из трёх шагов:
- вычисление интервалов и амплитуд,
- дискретизация,
- векторизация.
В результате обработки объём хранимых данных сокращается с 3Мб до 1Кб. Тем не менее, именно оставшиеся данные содержат наиболее значимую диагностическую информацию.
Этап машинного обучения: по представительной обучающей выборке векторизованных электрокардиограмм здоровых людей и больных строится алгоритм классификации — диагностическое правило.
Этап диагностики: построенное диагностическое правило применяется к электрокардиосигналу обследуемого и формируется ранжированный список диагнозов с оценками активности заболеваний.
Вычисление интервалов и амплитуд
На первом шаге обработки ЭКГ-сигнал преобразуется в последовательность интервалов кардиоциклов (кардиоинтервалограмму) и их амплитуд (кардиоамплитудограмму) . Также вводится «фазовый угол» как арктангенс их отношения . На рисунках показаны фрагменты динамики приращений интервалов и амплитуд в последовательных кардиоциклах ЭКГ здорового человека и трёх больных. Приращения амплитуд — жирные красные линии, приращения интервалов — тонкие синие линии. По оси абсцисс отложены номера кардиоциклов n. Под графиками показаны знаки приращений . Вариации амплитуд и интервалов, как правило, имеют квазипериодический характер и соответствуют дыхательной волне с периодом времени от 2 до 10с, что хорошо видно на электрокардиограмме здорового.
На рисунках заметно, что динамика приращений амплитуд и интервалов существенно отличается у здорового человека и больных. Однако визуальный анализ не отвечает на вопросы, насколько общезначимы эти отличия, и не являются ли они индивидуальными особенностями данных обследуемых. Необходимо применять методы машинного обучения к представительным выборкам больных и здоровых людей, чтобы автоматически выявить паттерны заболеваний, оценить их статистическую надёжность, и на их основе построить систему компьютерной диагностики.
Дискретизация
Предполагается, что диагностическую ценность имеют не столько величины амплитуд, интервалов и «фазовых углов», подверженные влиянию слишком большого числа факторов, сколько знаки их приращений в последовательных кардиоциклах. Возможны только 6 сочетаний увеличений и уменьшений этих трёх величин. Эти сочетания кодируются буквами 6-символьного алфавита {A,B,C,D,E,F}. В следующей таблице «+» означает положительное приращение, «−» — отрицательное:
В результате дискретизации амплитудограмма и интервалограмма преобразуются в 6-символьную последовательность, называемую кодограммой. Каждый символ кодирует тип взаимосвязи между двумя соседними кардиоциклами. Кодограмма близка по своей сути к тексту на естественном языке, в котором цепочки символов образуют слова, обладающие определённой семантикой. Принципиально важна способность кодограммы выделять из ЭКГ-сигнала наиболее важную для диагностики информацию.
На рисунке показана кодограмма и её частотное векторное представление.
Векторизация
Слово, образованное k последовательными буквами кодограммы, в вычислительной лингвистике принято называть k-граммой. Частота k-граммы определяется как отношение числа её вхождений в кодограмму к длине кодограммы. Преобразование кодограммы в вектор частот k-грамм называется векторизацией. Пример векторного представления кодограммы при k=3 показан на рисунке выше. Число всевозможных триграмм равно 216, поэтому вектор частот имеет размерность 216.
Эксперименты показывают, что данный способ дискретизации и векторизации сохраняет значимую диагностическую информацию о заболеваниях, несмотря на то, что объём данных сокращается в несколько тысяч раз. Оказывается, что совместная встречаемость определённых триграмм говорит о наличии в организме информационной сущности или программы определённого заболевания. Она проявляется у человека на любой стадии заболевания, в том числе задолго до возникновения симптомов и перехода заболевания в активную фазу. Её наличие говорит о предрасположенности к заболеванию и потому может применяться с целью ранней диагностики.
Машинное обучение
Оценивание качества диагностики производилось с помощью следующих общепринятых показателей.
- Чувствительность — доля больных, для которых диагностическое правило верно диагностирует наличие болезни.
- Специфичность — доля здоровых, для которых диагностическое правило верно диагностирует отсутствие болезни.
- AUC — площадь под ROC-кривой, отображающей зависимость чувствительности от специфичности.
Все три показателя принимают значения от 0% до 100%, чем выше, тем лучше. Чтобы избежать эффекта переобучения и получить несмещённые оценки качества диагностики, применяется 10-блочная кросс-валидация.
В таблице приводятся длины выборок больных. При построении диагностических правил каждой болезни использовалась одна и та же выборка 193 электрокардиограмм здоровых людей.
Промышленная реализация
Диагностическая система «Скринфакс», разработанная на основе технологии информационного анализа электрокардиосигналов, представляет собой улучшенный электрокардиограф, компьютер и специализированное программное обеспечение.
Система «Скринфакс» способна диагностировать следующие заболевания: ишемическую болезнь сердца, гипертоническую болезнь, сахарный диабет, желчекаменную, мочекаменную и язвенную болезни, железодефицитную анемию, некроз головки бедренной кости, хронический простатит, гиперпластические процессы в матке в виде миомы и эндометриоза, мастопатию, аденому, полипы различных локализаций и другие заболевания, а также риск онкопатологии с указанием наиболее вероятной локализации (всего около 30 заболеваний).
Методика обследования: непрерывная регистрация от 300 до 600 кардиоциклов в трех стандартных отведениях по методике съёма ЭКГ в течение 6-12 минут (в зависимости от частоты пульса).
«Скринфакс» является системой компьютерной диагностики заболеваний внутренних органов, не имеющих аналогов в мировой практике. Она может применяться для ранней диагностики.
Технология информационного анализа защищена шестью патентами России: №RU21595574C1 от 27.11.2000 г., №RU2157093С1 от 10.10.2000 г., №RU2163088C1 от 20.02.2001 г., №RU2184483 от 10.07.2002 г., №RU2211658C1 от 10.09. 2003 г., №RU2407431 C1 от 27.12.2010 г.
Выборки данных и конкурсные задания
Следующие наборы данных использовались в качестве практических заданий к курсу машинного обучения в МФТИ и ШАД Яндекс, а также на летних школах в 2014 году.
Датасет 1
В архиве файлы по 1 болезни, обучающая выборка с классификациями, тестовая выборка без классификаций, read.me с условием задания.
Датасет 2
Материалы и задания
В архиве файлы по 5 болезням, для каждой болезни имеется два файла: файлы с буквой «Э» в имени — эталонные выборки с надёжно верифицированными диагнозами, которые предполагается использовать для обучения; файлы без буквы «Э» — контрольные выборки. Можно использовать только эталонные, можно пробовать их перемешивать. В каждом файле первый столбец содержит метки классов (0-здоров, 1-болен), следующие 216 столбцов - значения признаков.
Литература
- Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с.
- Успенский В.М. Информационная функция сердца. // Клиническая медицина, — 2008. – Т. 86. — №5. – С.4-13.
- Успенский В.М. Информационная функция сердца в диагностике заболеваний внутренних органов. // Военно-медицинский журнал, — Т. 188. — 2010. — № 9. – С. 45-51.
- Успенский В.М. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. Пособие для врачей. — М.: «Экономика и информация», 2008. — 49с.
- Uspenskiy V.M. Information Function of the Heart. A Measurement Model // Measurement 2011, Proceedings of the 8-th International Conference, Slovakia. 2011, p. 383-386.
- Uspenskiy V.M. Information Function of the Heart. Biophysical substantiation of technical requirements for electrocardioblock registration and measurement of electrocardiosignals parameters acceptable for information analysis to diagnose internal diseases. Joint International IMEKO TC1+ TC7+ TC13 Symposium August 31st− September 2nd, 2011, Jena, Germany.
- Uspenskiy V.M. Diagnostic System Based on the Information Analysis of Electrocardiogram. Proceedings of MECO 2012. Advances and Challenges in Embedded Computing. Bar, Montenegro, June 19-21, 2012,p. 74-76.
Ссылки
- О системе «Скринфакс» — специализированный центр лечения асептического некроза.
- Воронцов К.В.. Статистическая проверка технологии информационного анализа электрокардиосигналов для диагностики заболеваний внутренних органов. Доклад на конференции Математическая биология и биоинформатика, Пущино, 20 октября 2014. (PDF, 2.4Мб).