CRISP-DM/Data Preparation
Материал из MachineLearning.
Фаза подготовки данных содержит все действия построения датасета (данных, которые будут использоваться при моделировании) из начальных сырых данных. Задачи подготовки данных, вероятно, будут выполняться не один раз, в не определенном заранее порядке. Эти задачи включают в себя структурирование, запись и выбор атрибутов, а также преобразование и очистку данных для моделирования.
Содержание |
Отобрать данные (Select data)
Выбор данных для анализа. Критерий выбора включает релевантность для целей анализа данных, качество и технические ограничения, такие как объем данных или тип данных. Выбор данных включает как выбор признаков (столбцов), так и выбор объектов (строчек) в таблице.
Правила включения/исключения (Rationale for inclusion/exclusion)
Перечислить данные, которые должны быть включены/исключены и по каким причинам.
Очистить данные (Clean data)
Привести качество данных в соответсвтвие с выбранным аналитическим подходом. Этого можно добиться различными подходами, например: выборым достаточно качественного поднабора данных, введением занчения по умолчанию, оцениванием пропусков в данных с помощью моделирования и другими.
Отчет о чистке данных (Data cleaning report)
Список решений и предпринятых мер по улучшению качества данных (оценка качества данных проводилась в одноименной задаче фазы "Понимание данных"). Список проверенных трансформаций данных, сделанных в целях улучшения качества.
Сделать производные данные (Construct data)
Эта задача включает операции по конструктивной подготовке данных, такие как порождение новых признаков и новых записей,а также простое преобразование значений признаков.
Порождение признаков (Derived attributes)
Порождение признаков заключается в создании признаков с помощью уже существующего набора одного и более признаков из одной записи. Например, площадь равна длине, умноженной на ширину.
Созданные записи (Generated records)
Опишите создание новых записей. Например, создайте новые записи для клиентов, которые не делали покупок последний год. Не было смысла иметь эти записи в исходных данных, но для модели покупатели, имеющие нулевое число покупок, могут иметь значение.
Объединить данные (Integrate data)
Это методы посредством которых информация комбинируется из множества таблиц или протоколов для создания новых протоколов или оценок.
Слияние данных (Merged data)
Слияние таблиц данных - это объединение двух и более таблиц, которые содержат различную информацию об одних и тех же объектах. Например, торговая сеть имеет таблицу с общей характеристикой каждого магазина (напр. торговая площадь, тип магазина), другую таблицу с обобщенными данными продаж (напр. общий доход, процентное изменение продаж за год) и прочие с различной информацией (напр. демографические характеристики покупателей). Эти таблицы могут быть объединены вместе в новую таблицу с одной записью для каждого магазина и комбинированными атрибутами из исходных таблиц.
Слияние данных также покрывает агрегацию. Агрегация относится к операции, где новые значения вычисляются из суммирования информации из множества записей или таблиц. К примеру, преобразование таблицы с данными покупок потребителя, где каждая запись соответствует одной покупке, в новую таблицу, где каждому потребителю уже соответствует одна запись с общими характеристиками по всем его покупкам (напр. их общее количество, средняя стоимость и т.д.).
Привести данные в нужный формат (Format data)
Преобразование данных в первыю очередь носят синтаксические изменения, которые не меняют значение данных. Они необходимы для требований инструментов моделирования.
Переформатированные данные (Reformatted data)
Некоторые инструменты моделирования устанавливают требования на порядок атрибутов. К примеру, первое поле - уникальный индентификатор для каждой записи в таблице с данными, или последнее поле - результат, который должна предсказать модель.
Может быть важным изменение порядка записей в наборе данных. Обычная ситуация, когда записи имеют изначальный определенный порядок, но для алгоритма моделирования необходимо, чтобы порядок был случайным. Например, при работе с нейронными сетями, как правило, случайный порядок является лучшим для работы, поэтому некоторые инструменты делают это автоматически без вмешательства пользователя.
Кроме того, есть чисто синтаксические изменения, чтобы удовлетворить требованиям специфичной модели. К примеру, удаление ненужных знаков препинания в текстовых полях, обрезание длинных слов до некоторого максимального заданного количества символов.