GMDH Shell

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(7 промежуточных версий не показаны.)
Строка 5: Строка 5:
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
-
Бесплатная версия программы имеет ограничения:
+
Доступна полнофункциональная пробная версия на 14 дней. Для академических исследований, по запросу, предоставляется полнофункциональная версия без ограничений по времени.
-
* Вычислительное задание не может выполнятся дольше 60 секунд.
+
-
* Недоступны функции:
+
-
** Экспорт модели в Excel.
+
-
** Сохранение результатов вычислений.
+
-
** Управление с помощью коммандной строки.
+
-
** Вычисление на удаленном Linux-кластере
+
== Функциональные возможности ==
== Функциональные возможности ==
=== Анализ и визуализация данных ===
=== Анализ и визуализация данных ===
-
* Предпросмотр таблицы данных
+
* Предпросмотр таблицы данных.
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.
-
* График
+
* График.
-
* Линейчатая диаграмма
+
* Линейчатая диаграмма.
-
* Скаттер
+
* Скаттер.
-
* Гистограмма
+
* Гистограмма.
-
* [[Коррелограмма]]
+
* [[Коррелограмма]].
-
* Таблица корреляции с зависимой переменной
+
* Таблица корреляции с зависимой переменной.
* Триангуляционная поверхность: 3D, изолинии, температурная карта.
* Триангуляционная поверхность: 3D, изолинии, температурная карта.
Строка 35: Строка 29:
* Графическая манипуляция колонками данных.
* Графическая манипуляция колонками данных.
* Применение трансформаций:
* Применение трансформаций:
-
# Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.);
+
# Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
-
# Временные ряды (серии лагов, разности, скользящее среднее);
+
# Временные ряды (серии лагов, разности, скользящее среднее).
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
-
* Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений
+
* Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
-
* Задание екзаменационной выборки
+
* Задание экзаменационной выборки.
* Выбор режима предобработки:
* Выбор режима предобработки:
# Общая предобработка (регрессия и классификация)
# Общая предобработка (регрессия и классификация)
# Прогнозирование временных рядов:
# Прогнозирование временных рядов:
-
## Длинна обучающего окна;
+
## Длинна обучающего окна.
-
## Интервал прогноза;
+
## Интервал прогноза.
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
=== Модуль “решателя” ===
=== Модуль “решателя” ===
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
-
** мин. и макс. степень одной переменной;
+
** мин. и макс. степень одной переменной.
-
** ограничение суммарной степени члена полинома;
+
** ограничение суммарной степени члена полинома.
-
** ограничение количества переменных в одном члене;
+
** ограничение количества переменных в одном члене.
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
-
* Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»:
+
* Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
** Leave-one-out кросс-валидация.
** Leave-one-out кросс-валидация.
-
* Выбор критерия валидации моделей
+
* Выбор критерия валидации моделей.
-
** Среднеквадратичная ошибка (RMSE)
+
** Среднеквадратичная ошибка (RMSE).
-
** Средняя абсолютная ошибка (MAE)
+
** Средняя абсолютная ошибка (MAE).
-
** RMSE или MAE со штрафом за сложность (домножение на корень сложности модели)
+
** RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
-
* Ранжирование переменных (с ограничением на использование не более N лучших переменных)
+
* Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
-
** По проверочной точности модели a+b*x
+
** По проверочной точности модели a+b*x.
-
** По частоте использования в моделях комбинаторного алгоритма МГУА
+
** По частоте использования в моделях комбинаторного алгоритма МГУА.
-
* Выбор алгоритма обучения
+
* Выбор алгоритма обучения.
-
** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI)
+
** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
-
** Многорядный итерационный алгоритм (улучшенный MIA)
+
** Многорядный итерационный алгоритм (улучшенный MIA) .
-
*** активные нейроны (COMBI в каждом нейроне)
+
*** активные нейроны (COMBI в каждом нейроне).
-
*** нейроны могут иметь от 2 до 5 входов
+
*** нейроны могут иметь от 2 до 5 входов.
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
-
* Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков
+
* Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.
=== Модуль пост-обработки ===
=== Модуль пост-обработки ===
-
* Усреднение прогнозов N лучших моделей
+
* Усреднение прогнозов N лучших моделей.
-
* Дискретизация прогнозных значений (для классификации)
+
* Дискретизация прогнозных значений (для классификации).
=== Экспорт результатов ===
=== Экспорт результатов ===
Строка 90: Строка 84:
* Оценка качества прогнозирующих моделей (60 различных видов ошибки):
* Оценка качества прогнозирующих моделей (60 различных видов ошибки):
** Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
** Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
-
** Максимальная позитивная и негативная, средняя, квадратичная ошибка.
+
** Максимальная положительная и отрицательная, средняя, квадратичная ошибка.
** Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
** Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
** Ошибка классификации в задачах с двумя и тремя классами.
** Ошибка классификации в задачах с двумя и тремя классами.
 +
== Литература ==
 +
# Кошулько А.А. [http://agora.guru.ru/abrau2010/pdf/313.pdf '' Прозрачная акселерация программной системы интеллектуального анализа данных.''] // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи: Труды Международной суперкомпьютерной конференции, ISBN 978-5-211-05916-0 (20-25 сентября 2010 г., г. Новороссийск). — М.: Изд-во МГУ, 2010. — С. 313-314.
== Ссылки ==
== Ссылки ==
-
 
+
* [[МГУА]]
-
* [http://www.gmdhshell.com GMDH Shell homepage] — страница проекта.
+
* [http://www.gmdhshell.com GMDH Shell Forecasting Software] — официальный сайт.
-
 
+
* [[Медиа:DM_L3-2_part1.pdf |Метод группового учета аргументов (презентация)]]
[[Категория:Прикладные системы анализа данных]]
[[Категория:Прикладные системы анализа данных]]

Текущая версия

GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.

С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.

Доступна полнофункциональная пробная версия на 14 дней. Для академических исследований, по запросу, предоставляется полнофункциональная версия без ограничений по времени.

Содержание

Функциональные возможности

Анализ и визуализация данных

  • Предпросмотр таблицы данных.
  • Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество 2\sigma и 3\sigma-outliers.
  • График.
  • Линейчатая диаграмма.
  • Скаттер.
  • Гистограмма.
  • Коррелограмма.
  • Таблица корреляции с зависимой переменной.
  • Триангуляционная поверхность: 3D, изолинии, температурная карта.

Модуль импорта

  • Считывание колонок из CSV, XLS, XLSX.
  • Нахождение прямоугольной таблицы данных.
  • Считывание названий колонок из первой строки.
  • Маркировка пропущенных или испорченных ячеек.

Модуль предобработки

  • Графическая манипуляция колонками данных.
  • Применение трансформаций:
  1. Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
  2. Временные ряды (серии лагов, разности, скользящее среднее).
  3. Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
  • Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
  • Задание экзаменационной выборки.
  • Выбор режима предобработки:
  1. Общая предобработка (регрессия и классификация)
  2. Прогнозирование временных рядов:
    1. Длинна обучающего окна.
    2. Интервал прогноза.
    3. Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.

Модуль “решателя”

  • Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
    • мин. и макс. степень одной переменной.
    • ограничение суммарной степени члена полинома.
    • ограничение количества переменных в одном члене.
  • Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
  • Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
    • Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
    • Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
    • k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
    • Leave-one-out кросс-валидация.
  • Выбор критерия валидации моделей.
    • Среднеквадратичная ошибка (RMSE).
    • Средняя абсолютная ошибка (MAE).
    • RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
  • Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
    • По проверочной точности модели a+b*x.
    • По частоте использования в моделях комбинаторного алгоритма МГУА.
  • Выбор алгоритма обучения.
    • Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
    • Многорядный итерационный алгоритм (улучшенный MIA) .
      • активные нейроны (COMBI в каждом нейроне).
      • нейроны могут иметь от 2 до 5 входов.
      • нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
  • Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.

Модуль пост-обработки

  • Усреднение прогнозов N лучших моделей.
  • Дискретизация прогнозных значений (для классификации).

Экспорт результатов

  • Экспорт матрицы предобработанных данных.
  • Экспорт прогнозов.
  • Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.

Модуль визуализации результатов

  • График модели.
  • График отклонений для текущей модели и результатов пост-обработки.
  • Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
  • Список ранжированных переменных.
  • Формула модели.
  • Оценка качества прогнозирующих моделей (60 различных видов ошибки):
    • Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
    • Максимальная положительная и отрицательная, средняя, квадратичная ошибка.
    • Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
    • Ошибка классификации в задачах с двумя и тремя классами.

Литература

  1. Кошулько А.А. Прозрачная акселерация программной системы интеллектуального анализа данных. // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи: Труды Международной суперкомпьютерной конференции, ISBN 978-5-211-05916-0 (20-25 сентября 2010 г., г. Новороссийск). — М.: Изд-во МГУ, 2010. — С. 313-314.

Ссылки

Личные инструменты