GMDH Shell
Материал из MachineLearning.
(Различия между версиями)
												
			
			| Строка 10: | Строка 10: | ||
** Экспорт модели в Excel.  | ** Экспорт модели в Excel.  | ||
** Сохранение результатов вычислений.  | ** Сохранение результатов вычислений.  | ||
| - | ** Управление с помощью   | + | ** Управление с помощью командной строки.  | 
| - | ** Вычисление на удаленном Linux-кластере   | + | ** Вычисление на удаленном Linux-кластере.  | 
== Функциональные возможности ==  | == Функциональные возможности ==  | ||
=== Анализ и визуализация данных ===  | === Анализ и визуализация данных ===  | ||
| - | * Предпросмотр таблицы данных  | + | * Предпросмотр таблицы данных.  | 
* Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.  | * Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers.  | ||
| - | * График  | + | * График.  | 
| - | * Линейчатая диаграмма  | + | * Линейчатая диаграмма.  | 
| - | * Скаттер  | + | * Скаттер.  | 
| - | * Гистограмма  | + | * Гистограмма.  | 
| - | * [[Коррелограмма]]  | + | * [[Коррелограмма]].  | 
| - | * Таблица корреляции с зависимой переменной  | + | * Таблица корреляции с зависимой переменной.  | 
* Триангуляционная поверхность: 3D, изолинии, температурная карта.  | * Триангуляционная поверхность: 3D, изолинии, температурная карта.  | ||
| Строка 35: | Строка 35: | ||
* Графическая манипуляция колонками данных.  | * Графическая манипуляция колонками данных.  | ||
* Применение трансформаций:  | * Применение трансформаций:  | ||
| - | # Элементарные функции (логарифм, экспонента, арктангенс,  нормирование и др.)  | + | # Элементарные функции (логарифм, экспонента, арктангенс,  нормирование и др.).  | 
| - | # Временные ряды (серии лагов, разности, скользящее среднее)  | + | # Временные ряды (серии лагов, разности, скользящее среднее).  | 
# Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).  | # Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).  | ||
| - | * Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений  | + | * Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.  | 
| - | * Задание   | + | * Задание экзаменационной выборки.  | 
* Выбор режима предобработки:  | * Выбор режима предобработки:  | ||
# Общая предобработка (регрессия и классификация)  | # Общая предобработка (регрессия и классификация)  | ||
# Прогнозирование временных рядов:  | # Прогнозирование временных рядов:  | ||
| - | ## Длинна обучающего окна  | + | ## Длинна обучающего окна.  | 
| - | ## Интервал прогноза  | + | ## Интервал прогноза.  | 
## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.  | ## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.  | ||
=== Модуль “решателя” ===  | === Модуль “решателя” ===  | ||
* Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:  | * Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:  | ||
| - | ** мин. и макс. степень одной переменной  | + | ** мин. и макс. степень одной переменной.  | 
| - | ** ограничение суммарной степени члена полинома  | + | ** ограничение суммарной степени члена полинома.  | 
| - | ** ограничение количества переменных в одном члене  | + | ** ограничение количества переменных в одном члене.  | 
* Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.  | * Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.  | ||
| - | * Выбор стратегии валидации моделей -   | + | * Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:  | 
** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.  | ** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.  | ||
** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).  | ** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).  | ||
** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных  k.  | ** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных  k.  | ||
** Leave-one-out кросс-валидация.  | ** Leave-one-out кросс-валидация.  | ||
| - | * Выбор критерия валидации моделей  | + | * Выбор критерия валидации моделей.  | 
| - | ** Среднеквадратичная ошибка (RMSE)  | + | ** Среднеквадратичная ошибка (RMSE).  | 
| - | ** Средняя абсолютная ошибка (MAE)  | + | ** Средняя абсолютная ошибка (MAE).  | 
| - | ** RMSE или MAE со штрафом за сложность (  | + | ** RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).  | 
| - | * Ранжирование переменных (с ограничением на использование не более N лучших переменных)   | + | * Ранжирование переменных (с ограничением на использование не более N лучших переменных) .  | 
| - | ** По проверочной точности модели a+b*x  | + | ** По проверочной точности модели a+b*x.  | 
| - | ** По частоте использования в моделях комбинаторного алгоритма МГУА  | + | ** По частоте использования в моделях комбинаторного алгоритма МГУА.  | 
| - | * Выбор алгоритма обучения  | + | * Выбор алгоритма обучения.  | 
| - | ** Комбинаторный алгоритм с возможностью ограничения максимальной сложности  моделей (COMBI)  | + | ** Комбинаторный алгоритм с возможностью ограничения максимальной сложности  моделей (COMBI).  | 
| - | ** Многорядный итерационный алгоритм (улучшенный MIA)   | + | ** Многорядный итерационный алгоритм (улучшенный MIA) .  | 
| - | *** активные нейроны (COMBI в каждом нейроне)  | + | *** активные нейроны (COMBI в каждом нейроне).  | 
| - | *** нейроны могут иметь от 2 до 5 входов  | + | *** нейроны могут иметь от 2 до 5 входов.  | 
*** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).  | *** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).  | ||
| - | * Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков  | + | * Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.  | 
=== Модуль пост-обработки ===  | === Модуль пост-обработки ===  | ||
| - | * Усреднение прогнозов N лучших моделей  | + | * Усреднение прогнозов N лучших моделей.  | 
| - | * Дискретизация прогнозных значений (для классификации)  | + | * Дискретизация прогнозных значений (для классификации).  | 
=== Экспорт результатов ===  | === Экспорт результатов ===  | ||
Версия 22:00, 2 сентября 2011
GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
Бесплатная версия программы имеет ограничения:
- Вычислительное задание не может выполнятся дольше 60 секунд.
 -  Недоступны функции: 
- Экспорт модели в Excel.
 - Сохранение результатов вычислений.
 - Управление с помощью командной строки.
 - Вычисление на удаленном Linux-кластере.
 
 
Содержание | 
Функциональные возможности
Анализ и визуализация данных
- Предпросмотр таблицы данных.
 -  Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество 
и
-outliers.
 - График.
 - Линейчатая диаграмма.
 - Скаттер.
 - Гистограмма.
 - Коррелограмма.
 - Таблица корреляции с зависимой переменной.
 - Триангуляционная поверхность: 3D, изолинии, температурная карта.
 
Модуль импорта
- Считывание колонок из CSV, XLS, XLSX.
 - Нахождение прямоугольной таблицы данных.
 - Считывание названий колонок из первой строки.
 - Маркировка пропущенных или испорченных ячеек.
 
Модуль предобработки
- Графическая манипуляция колонками данных.
 - Применение трансформаций:
 
- Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.).
 - Временные ряды (серии лагов, разности, скользящее среднее).
 - Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
 
- Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений.
 - Задание экзаменационной выборки.
 - Выбор режима предобработки:
 
- Общая предобработка (регрессия и классификация)
 -  Прогнозирование временных рядов:
- Длинна обучающего окна.
 - Интервал прогноза.
 - Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
 
 
Модуль “решателя”
-  Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
- мин. и макс. степень одной переменной.
 - ограничение суммарной степени члена полинома.
 - ограничение количества переменных в одном члене.
 
 - Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
 -  Выбор стратегии валидации моделей - то есть алгоритма использования «внешнего дополнения»:
- Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
 - Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
 - k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
 - Leave-one-out кросс-валидация.
 
 -  Выбор критерия валидации моделей.
- Среднеквадратичная ошибка (RMSE).
 - Средняя абсолютная ошибка (MAE).
 - RMSE или MAE со штрафом за сложность (умножение на корень сложности модели).
 
 -  Ранжирование переменных (с ограничением на использование не более N лучших переменных) .
- По проверочной точности модели a+b*x.
 - По частоте использования в моделях комбинаторного алгоритма МГУА.
 
 -  Выбор алгоритма обучения.
- Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI).
 -  Многорядный итерационный алгоритм (улучшенный MIA) .
- активные нейроны (COMBI в каждом нейроне).
 - нейроны могут иметь от 2 до 5 входов.
 - нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
 
 
 - Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков.
 
Модуль пост-обработки
- Усреднение прогнозов N лучших моделей.
 - Дискретизация прогнозных значений (для классификации).
 
Экспорт результатов
- Экспорт матрицы предобработанных данных.
 - Экспорт прогнозов.
 - Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.
 
Модуль визуализации результатов
- График модели.
 - График отклонений для текущей модели и результатов пост-обработки.
 - Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
 - Список ранжированных переменных.
 - Формула модели.
 -  Оценка качества прогнозирующих моделей (60 различных видов ошибки): 
- Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
 - Максимальная позитивная и негативная, средняя, квадратичная ошибка.
 - Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
 - Ошибка классификации в задачах с двумя и тремя классами.
 
 
Ссылки
- GMDH Shell homepage — страница проекта.
 


