GMDH Shell

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 4: Строка 4:
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
 +
 +
Бесплатная версия программы имеет ограничения:
 +
* Вычислительное задание не может выполнятся дольше 60 секунд.
 +
* Недоступны функции:
 +
** Экспорт модели в Excel.
 +
** Сохранение результатов вычислений.
 +
** Управление с помощью коммандной строки.
 +
** Вычисление на удаленном Linux-кластере
 +
 +
== Функциональные возможности ==
 +
 +
=== Анализ и визуализация данных ===
 +
* Предпросмотр таблицы данных
 +
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.
 +
* График
 +
* Линейчатая диаграмма
 +
* Скаттер
 +
* Гистограмма
 +
* [[Коррелограмма]]
 +
* Таблица корреляции с зависимой переменной
 +
* Триангуляционная поверхность: 3D, изолинии, температурная карта.
 +
 +
=== Модуль импорта ===
 +
* Считывание колонок из CSV, XLS, XLSX.
 +
* Нахождение прямоугольной таблицы данных.
 +
* Считывание названий колонок из первой строки.
 +
* Маркировка пропущенных или испорченных ячеек.
 +
 +
=== Модуль предобработки ===
 +
* Графическая манипуляция колонками данных.
 +
* Применение трансформаций:
 +
# Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.);
 +
# Временные ряды (серии лагов, разности, скользящее среднее);
 +
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
 +
* Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений
 +
* Задание екзаменационной выборки
 +
* Выбор режима предобработки:
 +
# Общая предобработка (регрессия и классификация)
 +
# Прогнозирование временных рядов:
 +
## Длинна обучающего окна;
 +
## Интервал прогноза;
 +
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
 +
 +
=== Модуль “решателя” ===
 +
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
 +
** мин. и макс. степень одной переменной;
 +
** ограничение суммарной степени члена полинома;
 +
** ограничение количества переменных в одном члене;
 +
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
 +
* Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»:
 +
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
 +
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
 +
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
 +
** Leave-one-out кросс-валидация.
 +
* Выбор критерия валидации моделей
 +
** Среднеквадратичная ошибка (RMSE)
 +
** Средняя абсолютная ошибка (MAE)
 +
** RMSE или MAE со штрафом за сложность (домножение на корень сложности модели)
 +
* Ранжирование переменных (с ограничением на использование не более N лучших переменных)
 +
** По проверочной точности модели a+b*x
 +
** По частоте использования в моделях комбинаторного алгоритма МГУА
 +
* Выбор алгоритма обучения
 +
** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI)
 +
** Многорядный итерационный алгоритм (улучшенный MIA)
 +
*** активные нейроны (COMBI в каждом нейроне)
 +
*** нейроны могут иметь от 2 до 5 входов
 +
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
 +
* Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков
 +
 +
=== Модуль пост-обработки ===
 +
* Усреднение прогнозов N лучших моделей
 +
* Дискретизация прогнозных значений (для классификации)
 +
 +
=== Экспорт результатов ===
 +
* Экспорт матрицы предобработанных данных.
 +
* Экспорт прогнозов.
 +
* Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.
 +
 +
=== Модуль визуализации результатов ===
 +
* График модели.
 +
* График отклонений для текущей модели и результатов пост-обработки.
 +
* Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
 +
* Список ранжированных переменных.
 +
* Формула модели.
 +
* Оценка качества прогнозирующих моделей (60 различных видов ошибки):
 +
** Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
 +
** Максимальная позитивная и негативная, средняя, квадратичная ошибка.
 +
** Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
 +
** Ошибка классификации в задачах с двумя и тремя классами.
 +
== Ссылки ==
== Ссылки ==
* [http://www.gmdhshell.com GMDH Shell homepage] — страница проекта.
* [http://www.gmdhshell.com GMDH Shell homepage] — страница проекта.
 +
 +
[[Категория:Прикладные системы анализа данных]]

Версия 21:52, 2 сентября 2011

GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.

С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.

Бесплатная версия программы имеет ограничения:

  • Вычислительное задание не может выполнятся дольше 60 секунд.
  • Недоступны функции:
    • Экспорт модели в Excel.
    • Сохранение результатов вычислений.
    • Управление с помощью коммандной строки.
    • Вычисление на удаленном Linux-кластере

Содержание

Функциональные возможности

Анализ и визуализация данных

  • Предпросмотр таблицы данных
  • Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество 2\sigma и 3\sigma-outliers.
  • График
  • Линейчатая диаграмма
  • Скаттер
  • Гистограмма
  • Коррелограмма
  • Таблица корреляции с зависимой переменной
  • Триангуляционная поверхность: 3D, изолинии, температурная карта.

Модуль импорта

  • Считывание колонок из CSV, XLS, XLSX.
  • Нахождение прямоугольной таблицы данных.
  • Считывание названий колонок из первой строки.
  • Маркировка пропущенных или испорченных ячеек.

Модуль предобработки

  • Графическая манипуляция колонками данных.
  • Применение трансформаций:
  1. Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.);
  2. Временные ряды (серии лагов, разности, скользящее среднее);
  3. Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
  • Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений
  • Задание екзаменационной выборки
  • Выбор режима предобработки:
  1. Общая предобработка (регрессия и классификация)
  2. Прогнозирование временных рядов:
    1. Длинна обучающего окна;
    2. Интервал прогноза;
    3. Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.

Модуль “решателя”

  • Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
    • мин. и макс. степень одной переменной;
    • ограничение суммарной степени члена полинома;
    • ограничение количества переменных в одном члене;
  • Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
  • Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»:
    • Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
    • Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
    • k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
    • Leave-one-out кросс-валидация.
  • Выбор критерия валидации моделей
    • Среднеквадратичная ошибка (RMSE)
    • Средняя абсолютная ошибка (MAE)
    • RMSE или MAE со штрафом за сложность (домножение на корень сложности модели)
  • Ранжирование переменных (с ограничением на использование не более N лучших переменных)
    • По проверочной точности модели a+b*x
    • По частоте использования в моделях комбинаторного алгоритма МГУА
  • Выбор алгоритма обучения
    • Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI)
    • Многорядный итерационный алгоритм (улучшенный MIA)
      • активные нейроны (COMBI в каждом нейроне)
      • нейроны могут иметь от 2 до 5 входов
      • нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
  • Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков

Модуль пост-обработки

  • Усреднение прогнозов N лучших моделей
  • Дискретизация прогнозных значений (для классификации)

Экспорт результатов

  • Экспорт матрицы предобработанных данных.
  • Экспорт прогнозов.
  • Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.

Модуль визуализации результатов

  • График модели.
  • График отклонений для текущей модели и результатов пост-обработки.
  • Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
  • Список ранжированных переменных.
  • Формула модели.
  • Оценка качества прогнозирующих моделей (60 различных видов ошибки):
    • Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
    • Максимальная позитивная и негативная, средняя, квадратичная ошибка.
    • Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
    • Ошибка классификации в задачах с двумя и тремя классами.


Ссылки

Личные инструменты