GMDH Shell

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 10: Строка 10:
** Экспорт модели в Excel.
** Экспорт модели в Excel.
** Сохранение результатов вычислений.
** Сохранение результатов вычислений.
-
** Управление с помощью коммандной строки.
+
** Управление с помощью командной строки.
-
** Вычисление на удаленном Linux-кластере
+
** Вычисление на удаленном Linux-кластере.
== Функциональные возможности ==
== Функциональные возможности ==
=== Анализ и визуализация данных ===
=== Анализ и визуализация данных ===
-
* Предпросмотр таблицы данных
+
* Предпросмотр таблицы данных.
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.
-
* График
+
* График.
-
* Линейчатая диаграмма
+
* Линейчатая диаграмма.
-
* Скаттер
+
* Скаттер.
-
* Гистограмма
+
* Гистограмма.
-
* [[Коррелограмма]]
+
* [[Коррелограмма]].
-
* Таблица корреляции с зависимой переменной
+
* Таблица корреляции с зависимой переменной.
* Триангуляционная поверхность: 3D, изолинии, температурная карта.
* Триангуляционная поверхность: 3D, изолинии, температурная карта.
Строка 35: Строка 35:
* Графическая манипуляция колонками данных.
* Графическая манипуляция колонками данных.
* Применение трансформаций:
* Применение трансформаций:
-
# Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.);
+
# Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
-
# Временные ряды (серии лагов, разности, скользящее среднее);
+
# Временные ряды (серии лагов, разности, скользящее среднее).
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
-
* Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений
+
* Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
-
* Задание екзаменационной выборки
+
* Задание экзаменационной выборки.
* Выбор режима предобработки:
* Выбор режима предобработки:
# Общая предобработка (регрессия и классификация)
# Общая предобработка (регрессия и классификация)
# Прогнозирование временных рядов:
# Прогнозирование временных рядов:
-
## Длинна обучающего окна;
+
## Длинна обучающего окна.
-
## Интервал прогноза;
+
## Интервал прогноза.
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
=== Модуль “решателя” ===
=== Модуль “решателя” ===
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
-
** мин. и макс. степень одной переменной;
+
** мин. и макс. степень одной переменной.
-
** ограничение суммарной степени члена полинома;
+
** ограничение суммарной степени члена полинома.
-
** ограничение количества переменных в одном члене;
+
** ограничение количества переменных в одном члене.
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
-
* Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»:
+
* Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
** Leave-one-out кросс-валидация.
** Leave-one-out кросс-валидация.
-
* Выбор критерия валидации моделей
+
* Выбор критерия валидации моделей.
-
** Среднеквадратичная ошибка (RMSE)
+
** Среднеквадратичная ошибка (RMSE).
-
** Средняя абсолютная ошибка (MAE)
+
** Средняя абсолютная ошибка (MAE).
-
** RMSE или MAE со штрафом за сложность (домножение на корень сложности модели)
+
** RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
-
* Ранжирование переменных (с ограничением на использование не более N лучших переменных)
+
* Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
-
** По проверочной точности модели a+b*x
+
** По проверочной точности модели a+b*x.
-
** По частоте использования в моделях комбинаторного алгоритма МГУА
+
** По частоте использования в моделях комбинаторного алгоритма МГУА.
-
* Выбор алгоритма обучения
+
* Выбор алгоритма обучения.
-
** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI)
+
** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
-
** Многорядный итерационный алгоритм (улучшенный MIA)
+
** Многорядный итерационный алгоритм (улучшенный MIA) .
-
*** активные нейроны (COMBI в каждом нейроне)
+
*** активные нейроны (COMBI в каждом нейроне).
-
*** нейроны могут иметь от 2 до 5 входов
+
*** нейроны могут иметь от 2 до 5 входов.
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
-
* Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков
+
* Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.
=== Модуль пост-обработки ===
=== Модуль пост-обработки ===
-
* Усреднение прогнозов N лучших моделей
+
* Усреднение прогнозов N лучших моделей.
-
* Дискретизация прогнозных значений (для классификации)
+
* Дискретизация прогнозных значений (для классификации).
=== Экспорт результатов ===
=== Экспорт результатов ===

Версия 22:00, 2 сентября 2011

GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.

С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.

Бесплатная версия программы имеет ограничения:

  • Вычислительное задание не может выполнятся дольше 60 секунд.
  • Недоступны функции:
    • Экспорт модели в Excel.
    • Сохранение результатов вычислений.
    • Управление с помощью командной строки.
    • Вычисление на удаленном Linux-кластере.

Содержание

Функциональные возможности

Анализ и визуализация данных

  • Предпросмотр таблицы данных.
  • Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество 2\sigma и 3\sigma-outliers.
  • График.
  • Линейчатая диаграмма.
  • Скаттер.
  • Гистограмма.
  • Коррелограмма.
  • Таблица корреляции с зависимой переменной.
  • Триангуляционная поверхность: 3D, изолинии, температурная карта.

Модуль импорта

  • Считывание колонок из CSV, XLS, XLSX.
  • Нахождение прямоугольной таблицы данных.
  • Считывание названий колонок из первой строки.
  • Маркировка пропущенных или испорченных ячеек.

Модуль предобработки

  • Графическая манипуляция колонками данных.
  • Применение трансформаций:
  1. Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
  2. Временные ряды (серии лагов, разности, скользящее среднее).
  3. Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
  • Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
  • Задание экзаменационной выборки.
  • Выбор режима предобработки:
  1. Общая предобработка (регрессия и классификация)
  2. Прогнозирование временных рядов:
    1. Длинна обучающего окна.
    2. Интервал прогноза.
    3. Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.

Модуль “решателя”

  • Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
    • мин. и макс. степень одной переменной.
    • ограничение суммарной степени члена полинома.
    • ограничение количества переменных в одном члене.
  • Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
  • Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
    • Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
    • Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
    • k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
    • Leave-one-out кросс-валидация.
  • Выбор критерия валидации моделей.
    • Среднеквадратичная ошибка (RMSE).
    • Средняя абсолютная ошибка (MAE).
    • RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
  • Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
    • По проверочной точности модели a+b*x.
    • По частоте использования в моделях комбинаторного алгоритма МГУА.
  • Выбор алгоритма обучения.
    • Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
    • Многорядный итерационный алгоритм (улучшенный MIA) .
      • активные нейроны (COMBI в каждом нейроне).
      • нейроны могут иметь от 2 до 5 входов.
      • нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
  • Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.

Модуль пост-обработки

  • Усреднение прогнозов N лучших моделей.
  • Дискретизация прогнозных значений (для классификации).

Экспорт результатов

  • Экспорт матрицы предобработанных данных.
  • Экспорт прогнозов.
  • Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.

Модуль визуализации результатов

  • График модели.
  • График отклонений для текущей модели и результатов пост-обработки.
  • Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
  • Список ранжированных переменных.
  • Формула модели.
  • Оценка качества прогнозирующих моделей (60 различных видов ошибки):
    • Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
    • Максимальная позитивная и негативная, средняя, квадратичная ошибка.
    • Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
    • Ошибка классификации в задачах с двумя и тремя классами.


Ссылки

Личные инструменты