GMDH Shell

Материал из MachineLearning.

GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.

С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.

Доступна полнофункциональная пробная версия на 14 дней. Для академических исследований, по запросу, предоставляется полнофункциональная версия без ограничений по времени.

Функциональные возможности

Анализ и визуализация данных

Предпросмотр таблицы данных.
Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество $2\sigma$ и $3\sigma$ -outliers.
График.
Линейчатая диаграмма.
Скаттер.
Гистограмма.
Коррелограмма.
Таблица корреляции с зависимой переменной.
Триангуляционная поверхность: 3D, изолинии, температурная карта.

Модуль импорта

Считывание колонок из CSV, XLS, XLSX.
Нахождение прямоугольной таблицы данных.
Считывание названий колонок из первой строки.
Маркировка пропущенных или испорченных ячеек.

Модуль предобработки

Графическая манипуляция колонками данных.
Применение трансформаций:

Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
Временные ряды (серии лагов, разности, скользящее среднее).
Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).

Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
Задание экзаменационной выборки.
Выбор режима предобработки:

Общая предобработка (регрессия и классификация)
Прогнозирование временных рядов:
1. Длинна обучающего окна.
2. Интервал прогноза.
3. Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.

Модуль “решателя”

Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
- мин. и макс. степень одной переменной.
- ограничение суммарной степени члена полинома.
- ограничение количества переменных в одном члене.
Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
- Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
- Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
- k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
- Leave-one-out кросс-валидация.
Выбор критерия валидации моделей.
- Среднеквадратичная ошибка (RMSE).
- Средняя абсолютная ошибка (MAE).
- RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
- По проверочной точности модели a+b*x.
- По частоте использования в моделях комбинаторного алгоритма МГУА.
Выбор алгоритма обучения.
- Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
- Многорядный итерационный алгоритм (улучшенный MIA) .
  - активные нейроны (COMBI в каждом нейроне).
  - нейроны могут иметь от 2 до 5 входов.
  - нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.

Модуль пост-обработки

Усреднение прогнозов N лучших моделей.
Дискретизация прогнозных значений (для классификации).

Экспорт результатов

Экспорт матрицы предобработанных данных.
Экспорт прогнозов.
Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.

Модуль визуализации результатов

График модели.
График отклонений для текущей модели и результатов пост-обработки.
Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
Список ранжированных переменных.
Формула модели.
Оценка качества прогнозирующих моделей (60 различных видов ошибки):
- Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
- Максимальная положительная и отрицательная, средняя, квадратичная ошибка.
- Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
- Ошибка классификации в задачах с двумя и тремя классами.

Литература

Кошулько А.А. Прозрачная акселерация программной системы интеллектуального анализа данных. // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи: Труды Международной суперкомпьютерной конференции, ISBN 978-5-211-05916-0 (20-25 сентября 2010 г., г. Новороссийск). — М.: Изд-во МГУ, 2010. — С. 313-314.

Ссылки

МГУА
GMDH Shell Forecasting Software — официальный сайт.
Метод группового учета аргументов (презентация)

Источник — «http://machinelearning.ru/wiki/index.php?title=GMDH_Shell»

Категория: Прикладные системы анализа данных