Логическая закономерность
Материал из MachineLearning.
|
Логическая закономерность в задачах классификации — легко интерпретируемое правило (rule), выделяющее из обучающей выборки достаточно много объектов какого-то одного класса и практически не выделяющее объекты остальных классов. Логические закономерности являются элементарными «строительными блоками» для широкого класса логических алгоритмов классификации, называемых также алгоритмами индукции правил (rule induction).
Определения и обозначения
Пусть — пространство объектов, — множество имён классов, — обучающая выборка.
Пусть — фиксированнный класс. Объекты этого класса будем называть положительными (positive examples); объекты остальных классов — отрицательными (negative examples).
Говорят, что предикат выделяет или покрывает (cover) объект , если .
Пусть , — признаки, с помощью которых описываются объекты. Признаки могут быть разнотипными, то есть в общем случае множества различны. Наиболее распространённый случай — когда все признаки числовые: . При этом числами могут кодироваться признаки, измеренные в различных шкалах, в частности, бинарные, номинальные и порядковые признаки.
Закономерностью называется предикат , удовлетворяющий требованиям интерпретируемости и информативности.
К набору закономерностей, образующих логический классификатор, дополнительно предъявляется требование взаимодополняемости (различности).
Интерпретируемость
Предикат называется «хорошо интерпретируемым» или правилом, если он описывается простой формулой, понятной экспертам в данной прикладной области. Строгого формального определения интерпретируемости не существует. В большинстве практических задач для интерпретируемости необходимо (но не достаточно), чтобы предикат зависел от небольшого числа признаков. Часто вводится ограничение . Кроме того, накладывается ограничение на функциональный вид правил. Чаще всего применяются конъюнкции, реже — шары или гиперплоскости. Другие виды правил могут диктоваться спецификой задачи.
Конъюнкции
Люди привыкли выражать свой житейский и профессиональный опыт в виде правил вида «если , то относительно объекта принять решение ». Причём в роли часто выступают конъюнкции небольшого числа элементарных высказываний. Такие правила называются логическими:
где — подмножество призаков мощности не более , — пороговое значение признака. Для количественных и порядковых признаков используются знаки сравнения или ; для бинарных и номинальных — только равенство.
Пример (из области медицины). Решается вопрос о целесообразности хирургической операции. Закономерность: «если возраст пациента выше 60 лет и ранее он перенёс инфаркт, то операцию не делать — риск отрицательного исхода велик и составляет 60%».
Пример (из области банковской деятельности). Решается вопрос о выдаче кредита. Закономерность: «если заёмщик указал в анкете свой домашний телефон, и его зарплата превышает $1000 в месяц, и сумма кредита не превышает $10000, то кредит можно выдать — риск невозврата мал и составляет 2%».
Построение логических правил по выборке данных сводится к поиску таких и , при которых информативность правила максимальна.
Шары
Гиперплоскости
Информативность
Введём четыре величины:
- — число положительных объектов в выборке ;
- — число отрицательных объектов в выборке ;
- — число положительных объектов, выделяемых правилом ;
- — число отрицательных объектов, выделяемых правилом ;
Интуитивно предикат является информативным, если одновременно и . Формализовать это интуитивное требование не так просто. Можно показать на примерах, что «наивные» попытки определить информативность предиката на выборке как функцию приводят к неадекватным результатам. Существует несколько различных формальных определений информативности, в том числе логическое, статистическое, энтропийное.
Взаимодополняемость
Набор закономерностей в совокупности должен образовывать алгоритм классификации . Чаще всего логический классификатор представляет собой взвешенную сумму закономерностей:
где — неотрицательные веса. В данной форме могут быть представлены также решающие списки и деревья.
Требование взаимодополняемости закономерностей означает, что для любого объекта выборки должна найтись закономерность , выделяющая данный объект. В противном случае алгоритм не сможет классифицировать объект, то есть произойдёт отказ от классификации.
Существует много эвристик, направленных на увеличение различности закономерностей и и более равномерное покрытие выборки.
Методы поиска закономерностей
Поиск (или синтез) всех закономерностей по заданной выборке данных является NP-полной задачей комбинаторной оптимизации. В общем случае для её решения требуется выполнить полный перебор всех наборов признаков. Поэтому на практике используются эвристические алгоритмы сокращённого перебора.
- Стохастический локальный поиск
- Алгоритм КОРА (поиск в глубину или метод ветвей и границ)
- Алгоритм ТЕМП (поиск в ширину)
- Генетический алгоритм (поиск правил)
Для поиска коротких информативных наборов признаков подходят различные методы отбора признаков, в том числе:
Ссылки
Литература
- Журавлёв, Ю. И., Рязанов, В. В., Сенько, О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: ФАЗИС, 2006. — 176 с. (подробнее)
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — 270 с. — ISBN 5-86134-060-9 (подробнее)
- Публикация:Загоруйко 1985 Алгоритмы обнаружения эмпирических закономерностей
- Публикация:Лбов 1981 Методы обработки разнотипных экспериментальных данных