CRISP-DM/Data Understanding

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
 
Строка 3: Строка 3:
выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.
выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.
-
==Выгрузить данные (Collect initial data)==
+
==Собрать исходные данные (Collect initial data)==
Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно).
Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно).
Строка 14: Строка 14:
Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).
Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).
-
==Описание данных (Describe data)==
+
==Описать данные (Describe data)==
Исследовать основные или "поверхностные" свойства собранных данных и описать результаты.
Исследовать основные или "поверхностные" свойства собранных данных и описать результаты.
Строка 23: Строка 23:
характерным требованиям?
характерным требованиям?
-
==Ознакомление с данными (Explore data)==
+
==Исследовать данные (Explore data)==
Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности.
Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности.
Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков;
Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков;
Строка 34: Строка 34:
Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения.
Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения.
-
==Определение качества данных (Verify data quality)==
+
==Проверить качество данных (Verify data quality)==
Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными,
Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными,
или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто?
или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто?

Текущая версия

На фазе изучения данных данные собираются, происходит ознакомление с данными, определяются проблемы в качестве данных, делаются первые попытки анализа данных с целью выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.

Содержание

Собрать исходные данные (Collect initial data)

Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно). Если необходимо, непосредственно загрузить данные в анализирующие инструменты.

N.B.: В случае нескольких источников данных, их интеграция выносится в отдельную задачу на данном или более поздних этапах.

Отчет о выгрузке данных (Initial data collection report)

Список полученных наборов данных вместе с описанием доступа к ним и возможными проблемами при осуществлении этого доступа. Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).

Описать данные (Describe data)

Исследовать основные или "поверхностные" свойства собранных данных и описать результаты.

Отчет по описанию данных (Data description report)

Описание собранных данных, включающее: формат данных, количество данных, например, число объектов и признаков в каждой таблице, сущности в каждом признаке и все другие найденные поверхностные характеристики данных. Удовлетворяют ли собранные данные каким-то характерным требованиям?

Исследовать данные (Explore data)

Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков; результаты простого агрегирования;свойства больших групп населения;простой статистический анализ. Это ознакомление может быть обращено конкретно к цели самого анализа данных;также оно может добавлять или уточнять информацию о данных и их качестве. Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа.

Отчет об ознакомлении с данными (Data exploration report)

Опишите результаты этой задачи, включая информацию о первых замечаниях и гипотезах, а также о их возможном влиянии на оставшуюся часть проекта. Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения.

Проверить качество данных (Verify data quality)

Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными, или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто?

Отчет о качестве данных (Data quality report)

Список результатов по верификации качества данных. Если встретились ошибки, список должен содержать возможные решения. Решения этих проблем в равной степени зависят от данных и бизнес-целей.

Ссылки

Личные инструменты