GMDH Shell
Материал из MachineLearning.
(Различия между версиями)
Строка 10: | Строка 10: | ||
** Экспорт модели в Excel. | ** Экспорт модели в Excel. | ||
** Сохранение результатов вычислений. | ** Сохранение результатов вычислений. | ||
- | ** Управление с помощью | + | ** Управление с помощью командной строки. |
- | ** Вычисление на удаленном Linux-кластере | + | ** Вычисление на удаленном Linux-кластере. |
== Функциональные возможности == | == Функциональные возможности == | ||
=== Анализ и визуализация данных === | === Анализ и визуализация данных === | ||
- | * Предпросмотр таблицы данных | + | * Предпросмотр таблицы данных. |
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers. | * Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers. | ||
- | * График | + | * График. |
- | * Линейчатая диаграмма | + | * Линейчатая диаграмма. |
- | * Скаттер | + | * Скаттер. |
- | * Гистограмма | + | * Гистограмма. |
- | * [[Коррелограмма]] | + | * [[Коррелограмма]]. |
- | * Таблица корреляции с зависимой переменной | + | * Таблица корреляции с зависимой переменной. |
* Триангуляционная поверхность: 3D, изолинии, температурная карта. | * Триангуляционная поверхность: 3D, изолинии, температурная карта. | ||
Строка 35: | Строка 35: | ||
* Графическая манипуляция колонками данных. | * Графическая манипуляция колонками данных. | ||
* Применение трансформаций: | * Применение трансформаций: | ||
- | # Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.) | + | # Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.). |
- | # Временные ряды (серии лагов, разности, скользящее среднее) | + | # Временные ряды (серии лагов, разности, скользящее среднее). |
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений). | # Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений). | ||
- | * Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений | + | * Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений. |
- | * Задание | + | * Задание экзаменационной выборки. |
* Выбор режима предобработки: | * Выбор режима предобработки: | ||
# Общая предобработка (регрессия и классификация) | # Общая предобработка (регрессия и классификация) | ||
# Прогнозирование временных рядов: | # Прогнозирование временных рядов: | ||
- | ## Длинна обучающего окна | + | ## Длинна обучающего окна. |
- | ## Интервал прогноза | + | ## Интервал прогноза. |
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад. | ## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад. | ||
=== Модуль “решателя” === | === Модуль “решателя” === | ||
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений: | * Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений: | ||
- | ** мин. и макс. степень одной переменной | + | ** мин. и макс. степень одной переменной. |
- | ** ограничение суммарной степени члена полинома | + | ** ограничение суммарной степени члена полинома. |
- | ** ограничение количества переменных в одном члене | + | ** ограничение количества переменных в одном члене. |
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной. | * Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной. | ||
- | * Выбор стратегии валидации моделей - | + | * Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»: |
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных. | ** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных. | ||
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных). | ** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных). | ||
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k. | ** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k. | ||
** Leave-one-out кросс-валидация. | ** Leave-one-out кросс-валидация. | ||
- | * Выбор критерия валидации моделей | + | * Выбор критерия валидации моделей. |
- | ** Среднеквадратичная ошибка (RMSE) | + | ** Среднеквадратичная ошибка (RMSE). |
- | ** Средняя абсолютная ошибка (MAE) | + | ** Средняя абсолютная ошибка (MAE). |
- | ** RMSE или MAE со штрафом за сложность ( | + | ** RMSE или MAE со штрафом за сложность (умножение на корень сложности модели). |
- | * Ранжирование переменных (с ограничением на использование не более N лучших переменных) | + | * Ранжирование переменных (с ограничением на использование не более N лучших переменных) . |
- | ** По проверочной точности модели a+b*x | + | ** По проверочной точности модели a+b*x. |
- | ** По частоте использования в моделях комбинаторного алгоритма МГУА | + | ** По частоте использования в моделях комбинаторного алгоритма МГУА. |
- | * Выбор алгоритма обучения | + | * Выбор алгоритма обучения. |
- | ** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI) | + | ** Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI). |
- | ** Многорядный итерационный алгоритм (улучшенный MIA) | + | ** Многорядный итерационный алгоритм (улучшенный MIA) . |
- | *** активные нейроны (COMBI в каждом нейроне) | + | *** активные нейроны (COMBI в каждом нейроне). |
- | *** нейроны могут иметь от 2 до 5 входов | + | *** нейроны могут иметь от 2 до 5 входов. |
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ). | *** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ). | ||
- | * Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков | + | * Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков. |
=== Модуль пост-обработки === | === Модуль пост-обработки === | ||
- | * Усреднение прогнозов N лучших моделей | + | * Усреднение прогнозов N лучших моделей. |
- | * Дискретизация прогнозных значений (для классификации) | + | * Дискретизация прогнозных значений (для классификации). |
=== Экспорт результатов === | === Экспорт результатов === |
Версия 22:00, 2 сентября 2011
GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
Бесплатная версия программы имеет ограничения:
- Вычислительное задание не может выполнятся дольше 60 секунд.
- Недоступны функции:
- Экспорт модели в Excel.
- Сохранение результатов вычислений.
- Управление с помощью командной строки.
- Вычисление на удаленном Linux-кластере.
Содержание |
Функциональные возможности
Анализ и визуализация данных
- Предпросмотр таблицы данных.
- Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество и -outliers.
- График.
- Линейчатая диаграмма.
- Скаттер.
- Гистограмма.
- Коррелограмма.
- Таблица корреляции с зависимой переменной.
- Триангуляционная поверхность: 3D, изолинии, температурная карта.
Модуль импорта
- Считывание колонок из CSV, XLS, XLSX.
- Нахождение прямоугольной таблицы данных.
- Считывание названий колонок из первой строки.
- Маркировка пропущенных или испорченных ячеек.
Модуль предобработки
- Графическая манипуляция колонками данных.
- Применение трансформаций:
- Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
- Временные ряды (серии лагов, разности, скользящее среднее).
- Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
- Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
- Задание экзаменационной выборки.
- Выбор режима предобработки:
- Общая предобработка (регрессия и классификация)
- Прогнозирование временных рядов:
- Длинна обучающего окна.
- Интервал прогноза.
- Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
Модуль “решателя”
- Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
- мин. и макс. степень одной переменной.
- ограничение суммарной степени члена полинома.
- ограничение количества переменных в одном члене.
- Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
- Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
- Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
- Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
- k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
- Leave-one-out кросс-валидация.
- Выбор критерия валидации моделей.
- Среднеквадратичная ошибка (RMSE).
- Средняя абсолютная ошибка (MAE).
- RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
- Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
- По проверочной точности модели a+b*x.
- По частоте использования в моделях комбинаторного алгоритма МГУА.
- Выбор алгоритма обучения.
- Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
- Многорядный итерационный алгоритм (улучшенный MIA) .
- активные нейроны (COMBI в каждом нейроне).
- нейроны могут иметь от 2 до 5 входов.
- нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
- Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.
Модуль пост-обработки
- Усреднение прогнозов N лучших моделей.
- Дискретизация прогнозных значений (для классификации).
Экспорт результатов
- Экспорт матрицы предобработанных данных.
- Экспорт прогнозов.
- Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.
Модуль визуализации результатов
- График модели.
- График отклонений для текущей модели и результатов пост-обработки.
- Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
- Список ранжированных переменных.
- Формула модели.
- Оценка качества прогнозирующих моделей (60 различных видов ошибки):
- Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
- Максимальная позитивная и негативная, средняя, квадратичная ошибка.
- Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
- Ошибка классификации в задачах с двумя и тремя классами.
Ссылки
- GMDH Shell homepage — страница проекта.