Технологии организации данных (курс лекций, С.К.Дулин)
Материал из MachineLearning.
(Различия между версиями)
(Новая: {{TOCright}} В курсе рассматриваются теоретические основы информационного моделирования и технологий орг...) |
м |
||
Строка 23: | Строка 23: | ||
** Краткая история развития компьютерных технологий и методов хранения информации. | ** Краткая история развития компьютерных технологий и методов хранения информации. | ||
** Методы сбора данных. Определение проблемы и формулирование целей исследования. | ** Методы сбора данных. Определение проблемы и формулирование целей исследования. | ||
+ | ** Планирование сбора первичных данных. Оценка полученных данных. | ||
* Методы обработки информационных ресурсов. | * Методы обработки информационных ресурсов. | ||
** Интеллектуальный анализ данных (Data Mining), история и предпосылки возникновения. | ** Интеллектуальный анализ данных (Data Mining), история и предпосылки возникновения. | ||
** Классификация и кластеризация данных. Функции сходства. Коэффициенты подобия. | ** Классификация и кластеризация данных. Функции сходства. Коэффициенты подобия. | ||
** Специфика обработки неструктурированных данных. Системы сбора и хранения текстовых документов. | ** Специфика обработки неструктурированных данных. Системы сбора и хранения текстовых документов. | ||
- | ** Примеры информационных систем. | + | ** Примеры информационных систем. Метод выделения ключевых слов. Метод латентных семантик LSI. |
== Архитектура систем баз данных и знаний == | == Архитектура систем баз данных и знаний == | ||
* Задачи трех уровней проектирования информационных ресурсов. | * Задачи трех уровней проектирования информационных ресурсов. | ||
- | ** Задача проектирования информационных ресурсов в терминах модели проблемной области – концептуальная модель. | + | ** Задача проектирования информационных ресурсов в терминах модели проблемной области – концептуальная модель. Присвоение имен типовым объектам, спецификация атрибутов, типы запросов. |
- | + | ||
** Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели. Достижение единого уровня представления программ и данных. | ** Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели. Достижение единого уровня представления программ и данных. | ||
** Функции администратора банка данных. | ** Функции администратора банка данных. | ||
* Управление базами данных. | * Управление базами данных. | ||
- | ** Основные виды поддерживаемых структур данных, схема и подсхема, схема схем (метамодель), интеллектуальный интерфейс пользователя. | + | ** Основные виды поддерживаемых структур данных, схема и подсхема, схема схем (метамодель), интеллектуальный интерфейс пользователя. Адресация и поиск, способы адресации, хеширование, индекс. |
- | + | ||
** Взаимодействие пользователя с СУБД, схема функционирования СУБД, система управления передачей данных, распределенная обработка, языковые средства СУБД. | ** Взаимодействие пользователя с СУБД, схема функционирования СУБД, система управления передачей данных, распределенная обработка, языковые средства СУБД. | ||
** Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур. | ** Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур. | ||
Строка 43: | Строка 42: | ||
** Классификация по назначению использования и по средствам отображения. | ** Классификация по назначению использования и по средствам отображения. | ||
** Метрическая и семантическая компоненты пространственных данных. | ** Метрическая и семантическая компоненты пространственных данных. | ||
+ | ** Растровое и векторное представление метрической информации. Топологическое и нетопологическое векторное представление. Обменные и рабочие форматы данных: назначение и взаимосвязь. Проблема стандартизации обменных форматов. | ||
* Основные понятия теории геоинформационных баз данных. | * Основные понятия теории геоинформационных баз данных. | ||
** Типы пространственно-временных данных: точечные объекты, линейные объекты, ареалы, атрибутивные данные. | ** Типы пространственно-временных данных: точечные объекты, линейные объекты, ареалы, атрибутивные данные. | ||
- | |||
- | |||
== Реляционная модель данных == | == Реляционная модель данных == | ||
* Теоретические основы реляционных систем. | * Теоретические основы реляционных систем. | ||
Строка 62: | Строка 60: | ||
** Табличная и операторная модификация данных. | ** Табличная и операторная модификация данных. | ||
** Ввод значений, именование столбца для INSERT, вставка результатов запроса, исключение строк из таблицы, изменение значения полей, UPDATE для множества столбцов. Использование подзапросов с командами обновления INSERT, DELETE, UPDATE. | ** Ввод значений, именование столбца для INSERT, вставка результатов запроса, исключение строк из таблицы, изменение значения полей, UPDATE для множества столбцов. Использование подзапросов с командами обновления INSERT, DELETE, UPDATE. | ||
- | ** Создание: TABLE, VIEW, INDEX, TRIGGER, SYNONYM, ROLE, ASSERTION. | + | ** Создание: TABLE, VIEW, INDEX, TRIGGER, SYNONYM, ROLE, ASSERTION. Корректное удаление и обновление информационных ресурсов. |
- | + | ||
* Администрирование. | * Администрирование. | ||
** Определение прав доступа к данным, передача привилегий, одновременная работа с множеством пользователей, типы блокировок. Системный каталог, использование представлений для таблиц каталога. | ** Определение прав доступа к данным, передача привилегий, одновременная работа с множеством пользователей, типы блокировок. Системный каталог, использование представлений для таблиц каталога. |
Версия 23:50, 13 апреля 2019
|
В курсе рассматриваются теоретические основы информационного моделирования и технологий организации информационных ресурсов в вычислительных системах с учетом специфики и ограничений различных проблемных областей, возможностей программного обеспечения.
Задачами данного курса являются:
- приобретение базовых знаний в области информационного моделирования и технологий организации информационных ресурсов;
- оказание консультаций и помощи студентам в проведении собственных теоретических и экспериментальных исследований в области информационного моделирования и организации информационных ресурсов в вычислительных системах;
- приобретение навыков работы с современными средствами и программными продуктами моделирования и обработки данных, а также с прикладными системами обработки пространственных данных.
Курс читается студентам 4 курса кафедры «Интеллектуальные системы / проектирование и организация систем» ФУПМ МФТИ. Программа лекционного курса рассчитана на 66 часов (два семестра), предусмотрены практические занятия (33 часа) и лабораторные работы (33 часа).
Замечания для студентов
- На подстранице имеется перечень вопросов к устному экзамену.
- О найденных ошибках и опечатках сообщайте мне. — А.Н.Гнеушев 22 ноября 2024
- Короткая ссылка на эту страницу: http://bit.ly/ML_ISD_DB.
Программа курса
Основы информационного моделирования
- Введение в системы, использующие информационные ресурсы.
- Краткая история развития компьютерных технологий и методов хранения информации.
- Методы сбора данных. Определение проблемы и формулирование целей исследования.
- Планирование сбора первичных данных. Оценка полученных данных.
- Методы обработки информационных ресурсов.
- Интеллектуальный анализ данных (Data Mining), история и предпосылки возникновения.
- Классификация и кластеризация данных. Функции сходства. Коэффициенты подобия.
- Специфика обработки неструктурированных данных. Системы сбора и хранения текстовых документов.
- Примеры информационных систем. Метод выделения ключевых слов. Метод латентных семантик LSI.
Архитектура систем баз данных и знаний
- Задачи трех уровней проектирования информационных ресурсов.
- Задача проектирования информационных ресурсов в терминах модели проблемной области – концептуальная модель. Присвоение имен типовым объектам, спецификация атрибутов, типы запросов.
- Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели. Достижение единого уровня представления программ и данных.
- Функции администратора банка данных.
- Управление базами данных.
- Основные виды поддерживаемых структур данных, схема и подсхема, схема схем (метамодель), интеллектуальный интерфейс пользователя. Адресация и поиск, способы адресации, хеширование, индекс.
- Взаимодействие пользователя с СУБД, схема функционирования СУБД, система управления передачей данных, распределенная обработка, языковые средства СУБД.
- Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур.
Представление и обработка пространственных данных
- Понятие о формализованном представлении пространственных данных.
- Классификация по назначению использования и по средствам отображения.
- Метрическая и семантическая компоненты пространственных данных.
- Растровое и векторное представление метрической информации. Топологическое и нетопологическое векторное представление. Обменные и рабочие форматы данных: назначение и взаимосвязь. Проблема стандартизации обменных форматов.
- Основные понятия теории геоинформационных баз данных.
- Типы пространственно-временных данных: точечные объекты, линейные объекты, ареалы, атрибутивные данные.
Реляционная модель данных
- Теоретические основы реляционных систем.
- Разделение данных и связей, реляционная модель, базовые таблицы и представления, домены и кортежи.
- Значения отношений, переменные отношений, виды отношений. Алгебра отношений и исчисление отношений, реляционные операции: выборка, проекция и соединение.
- Языки QBE и SQL, семейство SQL-подобных СУБД.
- Язык SQL.
- Спецификация и детализация SQL, соглашения и терминология.
- Язык определения данных DDL (data definition language): CREATE, ALTER, DROP, язык модификации данных DML (data modification language): INSERT, UPDATE, DELETE.
- Язык манипулирования данными DML (data manipulation language): SELECT
- Язык управления данными DCL (data control language): GRANT, REVOKE, SET ROLE.
- Корректное отображение естественно-языковых запросов в язык манипулирования данными.
- Синтаксис и семантика операции SELECT, определение выборки – предложение WHERE. Использование реляционных и булевых операторов для создания сложных предикатов, элементы мат. логики.
- Создание информационных объектов.
- Табличная и операторная модификация данных.
- Ввод значений, именование столбца для INSERT, вставка результатов запроса, исключение строк из таблицы, изменение значения полей, UPDATE для множества столбцов. Использование подзапросов с командами обновления INSERT, DELETE, UPDATE.
- Создание: TABLE, VIEW, INDEX, TRIGGER, SYNONYM, ROLE, ASSERTION. Корректное удаление и обновление информационных ресурсов.
- Администрирование.
- Определение прав доступа к данным, передача привилегий, одновременная работа с множеством пользователей, типы блокировок. Системный каталог, использование представлений для таблиц каталога.
Введение в ООСУБД
- Проектирование и реализация ООСУБД.
- Проектирование распределенных БД.
- Объектно-ориентированные модели данных.
- Языки программирования и запросов ООСУБД.
- Примеры ООСУБД. Моделирование и реализация ООСУБД.
- Основные понятия ODL. Объектно-ориентированное проектирование. Интерфейс, атрибуты и связи. Множественность связей в ODL на примере описания классов. Типы в ODL. Множества, мультимножества и списки.
SQL Server 2012
- Функциональные особенности и архитектура SQL Server.
- История SQL Server. Основные компоненты SQL Server. TRANSACT-SQL.
- Архитектура базы данных SQL Server. Объекты базы данных. Столбцы. Индексы. Представления. Ограничения целостности. Правила. Значение по умолчанию. Триггеры. Встроенные процедуры.
- Средства администрирования SQL Server.
- SQL ServerExpress 2012.
- Настройка SQL ServerExpress 2012.
- Инсталляция SQL Server. Каталоги и базы данных. Инструменты. Диспетчер конфигурации SQL ServerExpress.
- Настройка свойств среды SQL Server Management Studio.
Базы данных в Интернете
- Технологии Интернета, используемые для обращения к базам данных.
Методы доступа к данным
- Обзор методов доступа к данным: DAO, ADO, RDO.
- Ядро баз данных Microsoft Jet.
- Коллекции объектов DBEngine модели объектов доступа к данным DAO.
- Доступ к источникам данных ODBC. Модель объектов рабочего пространства ODBCDirect.
- Объектная модель ADO.
XML базы данных
- Технология XML.
- Создание и обработка XML-документов.
- XML-генераторы.
- Спецификация схем данных для XML-документов. Создание DTD – определения. Спецификация Namespaces. Объектная модель документа DOM.
- XML-база данных (Native XML Database, NXD) и база данных, поддерживающая XML как тип данных (XML Enabled Database, XED). Язык запросов XPath.
- Технология RDF (Resource Description Framework).
- RDF - способ представления распределенных данных.
- Использование форматов XML и N3 для записи RDF. Отличительные особенности RDF. Определение RDF как совокупности трёх правил. Области применимости RDF. Информация, представляемая в RDF, как набор утверждений и как граф. Пример сведения распределённой информации в общую систему на основе RDF представления.
Практические занятия
- Методы и приемы выбора источников информации и сбор вторичных данных. Оценка полученных данных и решение о необходимости первичных данных.
- Построение моделей методами Data Mining. Преобразование данных в полезную для принятия решений информацию.
- Способы устранение рассогласованности данных. Неопределенность данных, виды неопределенности.
- Представление документов в виде векторов взвешенных ключевых слов.
- Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели.
- Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур.
- Растровое и векторное представление метрической информации. Топологическое и нетопологическое векторное представление.
- Визуализация базы геоданных. Основные топологические характеристики моделей баз геоданных. Способы представления трехмерных моделей.
- Значения отношений, переменные отношений, виды отношений. Алгебра отношений и исчисление отношений, реляционные операции: выборка, проекция и соединение.
- Предложения CREATE, ALTER, DROP, INSERT, UPDATE, DELETE, GRANT, REVOKE, SET ROLE.
- Использование реляционных и булевых операторов для создания сложных предикатов, элементы мат. логики.
- Использование подзапросов с командами обновления INSERT, DELETE, UPDATE.
- Корректное удаление и обновление информационных ресурсов.
- Системный каталог, использование представлений для таблиц каталога.
- Основные понятия ODL. Объектно-ориентированное проектирование.
- Базы данных SQL Server. Объекты базы данных.
- Настройка свойств среды SQL Server Management Studio.
- Интеграция серверов Web и SQL Server.
- Доступ к источникам данных ODBC. Модель объектов рабочего пространства ODBCDirect.
- Язык запросов XPath.
- Пример сведения распределённой информации в общую систему на основе RDF представления.
Лабораторные занятия
Работа с реляционными данными
- Использование SQL для выборки данных из таблицы, формирование запроса. Microsoft Office Access 2007, SQL ServerExpress 2012.
- Выбор первичного ключа PRIMARY KEY, внешние и родительские ключи PARENT KEY и FOREIGN KEY, контроль ссылочной целостности.
- Примеры с использованием специальных операторов и функций агрегирования. Microsoft Office Access 2007, SQL ServerExpress 2012.
- Примеры с использованием специальных операторов IN, BETWEEN, LIKE, IS NULL.
- Суммирование данных с помощью функций агрегирования COUNT, SUM, AVG, MAX, MIN, предложения GROUP BY и HAVING.
- Форматирование результатов запроса, упорядочение выходных полей с помощью ORDER BY, упорядочение по множеству столбцов.
- Соединение таблиц – операция JOIN, операция соединения двух копий одной таблицы, алиасы, исключение избыточности.
- Вложение запросов, DISTINCT с подзапросами, использование функций агрегирования в подзапросах, подзапросы с HAVING, связанные подзапросы.
- Использование оператора EXISTS, комбинирование EXISTS и соединений, EXISTS и агрегаты.
- Специальные операторы ANY и ALL, равенства и неравенства.
- Объединение множества запросов в один – предложение UNION, использование UNION с ORDER BY, внешнее соединение.
- Реализация ограничений в таблицах. Создание и преобразование представлений. Microsoft Office Access 2007, SQL ServerExpress 2012.
- Реализация ограничений в таблицах, учет уникальности значений.
- Формы ограничения для первичного ключа PRIMARY KEY, ограничения внешнего ключа FOREIGN KEY, действие ограничений.
- Обновление представлений, представления и соединения, представления и подзапросы, удаление представлений, выбор значений размещенных в представлениях.
- Программная среда PL/SQL. Управляющие конструкции. Использование явных и неявных курсоров. SQL ServerExpress 2012.
- Использование явных и неявных курсоров. Выбор типа курсора. Примеры.
- Составление программ на PL/SQL с использованием явных и неявных курсоров.
Освоение СУБД SQL ServerExpress 2012
- Настройка свойств среды SQL Server Management Studio под конкретного пользователя. Мастера администрирования. Работа с встроенной документацией. Среда SQL Server Management Studio SQL Server 2012, SQL ServerExpress 2012.
- Установка, запуск, приостановка и возобновление работы SQL сервера. Настройка свойств сервера. Создание задания. Просмотр журнала ошибок. Просмотр и создание сообщений SQL Server. Среда SQL Server Management Studio SQL Server 2012, SQL ServerExpress 2012.
- Подключение баз данных из различных источников к SQL Server. Группы и роли. Изменение владельца базы данных. Установка разрешений для гостя базы данных. Режимы работы системы безопасности SQL Server. Управление пользователями базы данных. Управление доступом к базам данных SQL Server. SQL ServerExpress 2012.
Работа с преобразованием XML форматов
- Просмотр и анализ примера XML -файла для описания различных типов недвижимости. Создание запросов к реляционной базе данных, поддерживающей XML.
Конвертор форматов XML-SQL, SQL ServerExpress 2012.
Необходимое программное обеспечение
- программные системы Windows 2007, Microsoft Office Access 2007, SQL ServerExpress 2012;
- среда SQL Server Management Studio SQL Server 2012, конвертор форматов XML-SQL.
- Электронные ресурсы, включая доступ к базам данных
Литература
Основная литература
- Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы: Учебник. - М.: Финансы и статистика, 2004.
- Дюк В., Самойленко A. Data Mining. Учебный курс. - С-Пб.: Питер, 2001.
- К. Дж. Дейт. Введение в системы баз данных. Седьмое издание. М.: Издательский дом «Вильямс», 2001.
- Гарсиа-Молина Г., Ульман Дж.Д., Уидом Дж. Системы баз данных. Полный курс // М.: Вильямс, 2003
- Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я. Геоинформатика. – М.: МаксПресс, 2001.
- Обзор методов доступа к данным: DAO, ADO, RDO. URL
- Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый курс. -М: Вильямс, 2010, 816 с. URL
- XML и базы данных. URL
- Краткое введение в RDF. URL
Дополнительная литература
- Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004.
- Карпова Т.С. Базы данных. Модели, разработка, реализация. - СПб.: Питер, 2001.
- Коннолли Т. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. 3-е издание. — М.: Вильямс, 2003.
- Д. Кренке. Теория и практика построения баз данных. 8 изд. М.: Питер, 2003.
- Дьюсон Р. SQL Server 2008 для начинающих разработчиков. – СПб.: БХВ-Петербург, 2009, 704 с.
Программу составил
С.К. Дулин, профессор, д.т.н.
См. также
- Кафедра «Интеллектуальные системы» ФУПМ МФТИ
- Специализация «Проектирование и организация систем» кафедры «Интеллектуальные системы» ФУПМ МФТИ
- Расписание специализации «Проектирование и организация систем»
Список подстраниц
Технологии организации данных (курс лекций, С.К.Дулин)/Вопросы |