GMDH Shell
Материал из MachineLearning.
(Различия между версиями)
												
			
			| Строка 4: | Строка 4: | ||
| С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования. | С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования. | ||
| + | |||
| + | Бесплатная версия программы имеет ограничения: | ||
| + | * Вычислительное задание не может выполнятся дольше 60 секунд. | ||
| + | * Недоступны функции:  | ||
| + | ** Экспорт модели в Excel. | ||
| + | ** Сохранение результатов вычислений. | ||
| + | ** Управление с помощью коммандной строки. | ||
| + | ** Вычисление на удаленном Linux-кластере     | ||
| + | |||
| + | == Функциональные возможности == | ||
| + | |||
| + | === Анализ и визуализация данных === | ||
| + | * Предпросмотр таблицы данных | ||
| + | * Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество <tex>2\sigma</tex> и <tex>3\sigma</tex>-outliers. | ||
| + | * График | ||
| + | * Линейчатая диаграмма | ||
| + | * Скаттер | ||
| + | * Гистограмма | ||
| + | * [[Коррелограмма]] | ||
| + | * Таблица корреляции с зависимой переменной | ||
| + | * Триангуляционная поверхность: 3D, изолинии, температурная карта. | ||
| + | |||
| + | === Модуль импорта === | ||
| + | * Считывание колонок из CSV, XLS, XLSX. | ||
| + | * Нахождение прямоугольной таблицы данных. | ||
| + | * Считывание названий колонок из первой строки. | ||
| + | * Маркировка пропущенных или испорченных ячеек. | ||
| + | |||
| + | === Модуль предобработки === | ||
| + | * Графическая манипуляция колонками данных. | ||
| + | * Применение трансформаций: | ||
| + | # Элементарные функции (логарифм, экспонента, арктангенс,  нормирование и др.); | ||
| + | # Временные ряды (серии лагов, разности, скользящее среднее); | ||
| + | # Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений). | ||
| + | * Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений | ||
| + | * Задание екзаменационной выборки | ||
| + | * Выбор режима предобработки: | ||
| + | # Общая предобработка (регрессия и классификация) | ||
| + | # Прогнозирование временных рядов: | ||
| + | ## Длинна обучающего окна; | ||
| + | ## Интервал прогноза; | ||
| + | ## Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад. | ||
| + | |||
| + | === Модуль “решателя” === | ||
| + | * Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений: | ||
| + | ** мин. и макс. степень одной переменной; | ||
| + | ** ограничение суммарной степени члена полинома; | ||
| + | ** ограничение количества переменных в одном члене;  | ||
| + | * Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной. | ||
| + | * Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»: | ||
| + | ** Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных. | ||
| + | ** Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных). | ||
| + | ** k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных  k. | ||
| + | ** Leave-one-out кросс-валидация. | ||
| + | * Выбор критерия валидации моделей | ||
| + | ** Среднеквадратичная ошибка (RMSE) | ||
| + | ** Средняя абсолютная ошибка (MAE) | ||
| + | ** RMSE или MAE со штрафом за сложность (домножение на корень сложности модели) | ||
| + | * Ранжирование переменных (с ограничением на использование не более N лучших переменных)  | ||
| + | ** По проверочной точности модели a+b*x | ||
| + | ** По частоте использования в моделях комбинаторного алгоритма МГУА | ||
| + | * Выбор алгоритма обучения | ||
| + | ** Комбинаторный алгоритм с возможностью ограничения максимальной сложности  моделей (COMBI) | ||
| + | ** Многорядный итерационный алгоритм (улучшенный MIA)  | ||
| + | *** активные нейроны (COMBI в каждом нейроне) | ||
| + | *** нейроны могут иметь от 2 до 5 входов | ||
| + | *** нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ). | ||
| + | * Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков | ||
| + | |||
| + | === Модуль пост-обработки === | ||
| + | * Усреднение прогнозов N лучших моделей | ||
| + | * Дискретизация прогнозных значений (для классификации) | ||
| + | |||
| + | === Экспорт результатов === | ||
| + | * Экспорт матрицы предобработанных данных. | ||
| + | * Экспорт прогнозов. | ||
| + | * Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX. | ||
| + | |||
| + | === Модуль визуализации результатов === | ||
| + | * График модели. | ||
| + | * График отклонений для текущей модели и результатов пост-обработки. | ||
| + | * Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.  | ||
| + | * Список ранжированных переменных. | ||
| + | * Формула модели. | ||
| + | * Оценка качества прогнозирующих моделей (60 различных видов ошибки):  | ||
| + | ** Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка». | ||
| + | ** Максимальная позитивная и негативная, средняя, квадратичная ошибка.   | ||
| + | ** Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.  | ||
| + | ** Ошибка классификации в задачах с двумя и тремя классами. | ||
| + | |||
| == Ссылки == | == Ссылки == | ||
| * [http://www.gmdhshell.com GMDH Shell homepage] — страница проекта. | * [http://www.gmdhshell.com GMDH Shell homepage] — страница проекта. | ||
| + | |||
| + | [[Категория:Прикладные системы анализа данных]] | ||
Версия 21:52, 2 сентября 2011
GMDH Shell — это программный инструмент для интеллектуального анализа данных и прогнозирования на основе МГУА.
С помощью GMDH Shell можно исследовать данные, построить регрессионную модель, применить ранее полученную модель для прогнозирования.
Бесплатная версия программы имеет ограничения:
- Вычислительное задание не может выполнятся дольше 60 секунд.
-  Недоступны функции: 
- Экспорт модели в Excel.
- Сохранение результатов вычислений.
- Управление с помощью коммандной строки.
- Вычисление на удаленном Linux-кластере
 
| Содержание | 
Функциональные возможности
Анализ и визуализация данных
- Предпросмотр таблицы данных
-  Статистика по колонкам данных: количество текстовых и числовых ячеек; количество нулевых, пропущенных, уникальных значений; максимальное, минимальное, среднее, центральное, наиболее встречаемое значение; стандартное отклонение; количество и -outliers. 
- График
- Линейчатая диаграмма
- Скаттер
- Гистограмма
- Коррелограмма
- Таблица корреляции с зависимой переменной
- Триангуляционная поверхность: 3D, изолинии, температурная карта.
Модуль импорта
- Считывание колонок из CSV, XLS, XLSX.
- Нахождение прямоугольной таблицы данных.
- Считывание названий колонок из первой строки.
- Маркировка пропущенных или испорченных ячеек.
Модуль предобработки
- Графическая манипуляция колонками данных.
- Применение трансформаций:
- Элементарные функции (логарифм, экспонента, арктангенс, нормирование и др.);
- Временные ряды (серии лагов, разности, скользящее среднее);
- Другие трансформации (Нумерация категорий, двоичная декомпозиция, взвешивание наблюдений).
- Замена пропущенных значений на: ноль, среднее, центральное, наиболее встречаемое или интерполяция соседних значений
- Задание екзаменационной выборки
- Выбор режима предобработки:
- Общая предобработка (регрессия и классификация)
-  Прогнозирование временных рядов:
- Длинна обучающего окна;
- Интервал прогноза;
- Серия из N испытательных экспериментов со сдвигом обучающего окна N раз на одно наблюдение назад.
 
Модуль “решателя”
-  Дополнительные переменные - формирование расширенного пространства переменных в полиномиальном базисе. Формируются все возможные слагаемые полинома Колмогорова-Габора с учетом ограничений:
- мин. и макс. степень одной переменной;
- ограничение суммарной степени члена полинома;
- ограничение количества переменных в одном члене;
 
- Перемешивание наблюдений - перемешивание строк данных с последующим восстановлением порядка следования. Используется перестановка «четные затем нечетные» или k корзин в случае k-fold кросс-валидации. Возможна предварительная сортировка по возрастанию, убыванию или по дисперсии прогнозируемой переменной.
-  Выбор стратегии валидации моделей - тоесть алгоритма использования «внешнего дополнения»:
- Деление данных на обучающую и проверочную выборки. Параметр стратегии — пропорция деления данных.
- Деление данных с добавлением штрафа за ошибку обучения (Тестирование модели на всей выборке данных).
- k-fold кросс-валидация. Параметр стратегии — количество подвыборок данных k.
- Leave-one-out кросс-валидация.
 
-  Выбор критерия валидации моделей
- Среднеквадратичная ошибка (RMSE)
- Средняя абсолютная ошибка (MAE)
- RMSE или MAE со штрафом за сложность (домножение на корень сложности модели)
 
-  Ранжирование переменных (с ограничением на использование не более N лучших переменных) 
- По проверочной точности модели a+b*x
- По частоте использования в моделях комбинаторного алгоритма МГУА
 
-  Выбор алгоритма обучения
- Комбинаторный алгоритм с возможностью ограничения максимальной сложности моделей (COMBI)
-  Многорядный итерационный алгоритм (улучшенный MIA) 
- активные нейроны (COMBI в каждом нейроне)
- нейроны могут иметь от 2 до 5 входов
- нейроны предыдущего слоя добавляются в следующий слой (нейронные связи могут пропускать промежуточные слои ).
 
 
- Для обоих алгоритмов можно задать Свободу выбора и Количество параллельных потоков
Модуль пост-обработки
- Усреднение прогнозов N лучших моделей
- Дискретизация прогнозных значений (для классификации)
Экспорт результатов
- Экспорт матрицы предобработанных данных.
- Экспорт прогнозов.
- Экспорт модели в Excel. Необходимое условие: все исходные данные находятся в одном файле XLS или XLSX.
Модуль визуализации результатов
- График модели.
- График отклонений для текущей модели и результатов пост-обработки.
- Таблица прогнозов и отклонений текущей модели и результатов пост-обработки.
- Список ранжированных переменных.
- Формула модели.
-  Оценка качества прогнозирующих моделей (60 различных видов ошибки): 
- Ошибка пост-обработанного прогноза и текущей модели на экзаменационной выборке и на «обучение+проверка».
- Максимальная позитивная и негативная, средняя, квадратичная ошибка.
- Абсолютная ошибка, процентная от магнитуды процесса (нормированная) и процентная от текущего значения.
- Ошибка классификации в задачах с двумя и тремя классами.
 
Ссылки
- GMDH Shell homepage — страница проекта.


