CRISP-DM/Data Preparation
Материал из MachineLearning.
Фаза подготовки данных содержит все действия построения датасета (данных, которые будут использоваться при моделировании) из начальных сырых данных. Задачи подготовки данных, вероятно, будут выполняться не один раз, в не определенном заранее порядке. Эти задачи включают в себя структурирование, запись и выбор атрибутов, а также преобразование и очистку данных для моделирования.
Отбор данных (Select data)
Выбор данных для анализа. Критерий выбора включает релевантность для целей анализа данных, качество и технические ограничения, такие как объем данных или тип данных. Выбор данных включает как выбор признаков (столбцов), так и выбор объектов (строчек) в таблице.
Правила включения/исключения (Rationale for inclusion/exclusion)
Перечислить данные, которые должны быть включены/исключены и по каким причинам.