CRISP-DM/Data Understanding
Материал из MachineLearning.
м |
м |
||
Строка 3: | Строка 3: | ||
выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях. | выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях. | ||
- | ==Выгрузить данные== | + | ==Выгрузить данные (Collect initial data)== |
Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно). | Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно). | ||
Строка 10: | Строка 10: | ||
N.B.: В случае нескольких источников данных, их интеграция выносится в отдельную задачу на данном или более поздних этапах. | N.B.: В случае нескольких источников данных, их интеграция выносится в отдельную задачу на данном или более поздних этапах. | ||
- | ===Отчет о выгрузке данных=== | + | ===Отчет о выгрузке данных (Initial data collection report)=== |
Список полученных наборов данных вместе с описанием доступа к ним и возможными проблемами при осуществлении этого доступа. | Список полученных наборов данных вместе с описанием доступа к ним и возможными проблемами при осуществлении этого доступа. | ||
Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем). | Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем). | ||
- | ==Описание данных== | + | ==Описание данных (Describe data)== |
Исследовать основные или "поверхностные" свойства собранных данных и описать результаты. | Исследовать основные или "поверхностные" свойства собранных данных и описать результаты. | ||
- | ===Отчет по описанию данных=== | + | ===Отчет по описанию данных (Data description report)=== |
Описание собранных данных, включающее: формат данных, количество данных, например, число | Описание собранных данных, включающее: формат данных, количество данных, например, число | ||
объектов и признаков в каждой таблице, сущности в каждом признаке и все другие найденные | объектов и признаков в каждой таблице, сущности в каждом признаке и все другие найденные | ||
Строка 23: | Строка 23: | ||
характерным требованиям? | характерным требованиям? | ||
- | ==Ознакомление с данными== | + | ==Ознакомление с данными (Explore data)== |
Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. | Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. | ||
Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков; | Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков; | ||
Строка 30: | Строка 30: | ||
Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа. | Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа. | ||
- | ===Отчет | + | ===Отчет об ознакомлении с данными (Data exploration report)=== |
Опишите результаты этой задачи, включая информацию о первых замечаниях и гипотезах, а также о их возможном влиянии на оставшуюся часть проекта. | Опишите результаты этой задачи, включая информацию о первых замечаниях и гипотезах, а также о их возможном влиянии на оставшуюся часть проекта. | ||
Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения. | Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения. | ||
- | ==Определение качества данных== | + | ==Определение качества данных (Verify data quality)== |
Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными, | Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными, | ||
или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто? | или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто? | ||
- | ===Отчет о качестве данных=== | + | ===Отчет о качестве данных (Data quality report)=== |
Список результатов по верификации качества данных. Если встретились ошибки, список должен содержать возможные решения. Решения этих проблем в равной степени | Список результатов по верификации качества данных. Если встретились ошибки, список должен содержать возможные решения. Решения этих проблем в равной степени | ||
зависят от данных и бизнес-целей. | зависят от данных и бизнес-целей. |
Версия 13:54, 21 ноября 2012
На фазе изучения данных данные собираются, происходит ознакомление с данными, определяются проблемы в качестве данных, делаются первые попытки анализа данных с целью выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.
Содержание |
Выгрузить данные (Collect initial data)
Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно). Если необходимо, непосредственно загрузить данные в анализирующие инструменты.
N.B.: В случае нескольких источников данных, их интеграция выносится в отдельную задачу на данном или более поздних этапах.
Отчет о выгрузке данных (Initial data collection report)
Список полученных наборов данных вместе с описанием доступа к ним и возможными проблемами при осуществлении этого доступа. Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).
Описание данных (Describe data)
Исследовать основные или "поверхностные" свойства собранных данных и описать результаты.
Отчет по описанию данных (Data description report)
Описание собранных данных, включающее: формат данных, количество данных, например, число объектов и признаков в каждой таблице, сущности в каждом признаке и все другие найденные поверхностные характеристики данных. Удовлетворяют ли собранные данные каким-то характерным требованиям?
Ознакомление с данными (Explore data)
Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков; результаты простого агрегирования;свойства больших групп населения;простой статистический анализ. Это ознакомление может быть обращено конкретно к цели самого анализа данных;также оно может добавлять или уточнять информацию о данных и их качестве. Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа.
Отчет об ознакомлении с данными (Data exploration report)
Опишите результаты этой задачи, включая информацию о первых замечаниях и гипотезах, а также о их возможном влиянии на оставшуюся часть проекта. Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения.
Определение качества данных (Verify data quality)
Следует определить качество данных, поставив, например, такие вопросы: являются ли данные полными (покрывают ли они все требуемые случаи)? Являются ли данные корректными, или же содержат ошибки, и где эти ошибки? Встречаются ли в данных пропущенные значения? Если встречаются, то где и насколько часто?
Отчет о качестве данных (Data quality report)
Список результатов по верификации качества данных. Если встретились ошибки, список должен содержать возможные решения. Решения этих проблем в равной степени зависят от данных и бизнес-целей.