Технологии организации данных (курс лекций, С.К.Дулин)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

В курсе рассматриваются теоретические основы информационного моделирования и технологий организации информационных ресурсов в вычислительных системах с учетом специфики и ограничений различных проблемных областей, возможностей программного обеспечения.


Задачами данного курса являются:

  • приобретение базовых знаний в области информационного моделирования и технологий организации информационных ресурсов;
  • оказание консультаций и помощи студентам в проведении собственных теоретических и экспериментальных исследований в области информационного моделирования и организации информационных ресурсов в вычислительных системах;
  • приобретение навыков работы с современными средствами и программными продуктами моделирования и обработки данных, а также с прикладными системами обработки пространственных данных.


Курс читается студентам 4 курса кафедры «Интеллектуальные системы / проектирование и организация систем» ФУПМ МФТИ. Программа лекционного курса рассчитана на 66 часов (два семестра), предусмотрены практические занятия (33 часа) и лабораторные работы (33 часа).

Замечания для студентов


Программа курса

Основы информационного моделирования

  • Введение в системы, использующие информационные ресурсы.
    • Краткая история развития компьютерных технологий и методов хранения информации.
    • Методы сбора данных. Определение проблемы и формулирование целей исследования.
    • Планирование сбора первичных данных. Оценка полученных данных.
  • Методы обработки информационных ресурсов.
    • Интеллектуальный анализ данных (Data Mining), история и предпосылки возникновения.
    • Классификация и кластеризация данных. Функции сходства. Коэффициенты подобия.
    • Специфика обработки неструктурированных данных. Системы сбора и хранения текстовых документов.
    • Примеры информационных систем. Метод выделения ключевых слов. Метод латентных семантик LSI.

Архитектура систем баз данных и знаний

  • Задачи трех уровней проектирования информационных ресурсов.
    • Задача проектирования информационных ресурсов в терминах модели проблемной области – концептуальная модель. Присвоение имен типовым объектам, спецификация атрибутов, типы запросов.
    • Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели. Достижение единого уровня представления программ и данных.
    • Функции администратора банка данных.
  • Управление базами данных.
    • Основные виды поддерживаемых структур данных, схема и подсхема, схема схем (метамодель), интеллектуальный интерфейс пользователя. Адресация и поиск, способы адресации, хеширование, индекс.
    • Взаимодействие пользователя с СУБД, схема функционирования СУБД, система управления передачей данных, распределенная обработка, языковые средства СУБД.
    • Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур.

Представление и обработка пространственных данных

  • Понятие о формализованном представлении пространственных данных.
    • Классификация по назначению использования и по средствам отображения.
    • Метрическая и семантическая компоненты пространственных данных.
    • Растровое и векторное представление метрической информации. Топологическое и нетопологическое векторное представление. Обменные и рабочие форматы данных: назначение и взаимосвязь. Проблема стандартизации обменных форматов.
  • Основные понятия теории геоинформационных баз данных.
    • Типы пространственно-временных данных: точечные объекты, линейные объекты, ареалы, атрибутивные данные.

Реляционная модель данных

  • Теоретические основы реляционных систем.
    • Разделение данных и связей, реляционная модель, базовые таблицы и представления, домены и кортежи.
    • Значения отношений, переменные отношений, виды отношений. Алгебра отношений и исчисление отношений, реляционные операции: выборка, проекция и соединение.
    • Языки QBE и SQL, семейство SQL-подобных СУБД.
  • Язык SQL.
    • Спецификация и детализация SQL, соглашения и терминология.
    • Язык определения данных DDL (data definition language): CREATE, ALTER, DROP, язык модификации данных DML (data modification language): INSERT, UPDATE, DELETE.
    • Язык манипулирования данными DML (data manipulation language): SELECT
    • Язык управления данными DCL (data control language): GRANT, REVOKE, SET ROLE.
    • Корректное отображение естественно-языковых запросов в язык манипулирования данными.
    • Синтаксис и семантика операции SELECT, определение выборки – предложение WHERE. Использование реляционных и булевых операторов для создания сложных предикатов, элементы мат. логики.
  • Создание информационных объектов.
    • Табличная и операторная модификация данных.
    • Ввод значений, именование столбца для INSERT, вставка результатов запроса, исключение строк из таблицы, изменение значения полей, UPDATE для множества столбцов. Использование подзапросов с командами обновления INSERT, DELETE, UPDATE.
    • Создание: TABLE, VIEW, INDEX, TRIGGER, SYNONYM, ROLE, ASSERTION. Корректное удаление и обновление информационных ресурсов.
  • Администрирование.
    • Определение прав доступа к данным, передача привилегий, одновременная работа с множеством пользователей, типы блокировок. Системный каталог, использование представлений для таблиц каталога.

Введение в ООСУБД

  • Проектирование и реализация ООСУБД.
    • Проектирование распределенных БД.
    • Объектно-ориентированные модели данных.
    • Языки программирования и запросов ООСУБД.
    • Примеры ООСУБД. Моделирование и реализация ООСУБД.
    • Основные понятия ODL. Объектно-ориентированное проектирование. Интерфейс, атрибуты и связи. Множественность связей в ODL на примере описания классов. Типы в ODL. Множества, мультимножества и списки.

SQL Server 2012

  • Функциональные особенности и архитектура SQL Server.
    • История SQL Server. Основные компоненты SQL Server. TRANSACT-SQL.
    • Архитектура базы данных SQL Server. Объекты базы данных. Столбцы. Индексы. Представления. Ограничения целостности. Правила. Значение по умолчанию. Триггеры. Встроенные процедуры.
    • Средства администрирования SQL Server.
  • SQL ServerExpress 2012.
    • Настройка SQL ServerExpress 2012.
    • Инсталляция SQL Server. Каталоги и базы данных. Инструменты. Диспетчер конфигурации SQL ServerExpress.
    • Настройка свойств среды SQL Server Management Studio.

Базы данных в Интернете

  • Технологии Интернета, используемые для обращения к базам данных.

Методы доступа к данным

  • Обзор методов доступа к данным: DAO, ADO, RDO.
    • Ядро баз данных Microsoft Jet.
    • Коллекции объектов DBEngine модели объектов доступа к данным DAO.
    • Доступ к источникам данных ODBC. Модель объектов рабочего пространства ODBCDirect.
    • Объектная модель ADO.

XML базы данных

  • Технология XML.
    • Создание и обработка XML-документов.
    • XML-генераторы.
    • Спецификация схем данных для XML-документов. Создание DTD – определения. Спецификация Namespaces. Объектная модель документа DOM.
    • XML-база данных (Native XML Database, NXD) и база данных, поддерживающая XML как тип данных (XML Enabled Database, XED). Язык запросов XPath.
  • Технология RDF (Resource Description Framework).
    • RDF - способ представления распределенных данных.
    • Использование форматов XML и N3 для записи RDF. Отличительные особенности RDF. Определение RDF как совокупности трёх правил. Области применимости RDF. Информация, представляемая в RDF, как набор утверждений и как граф. Пример сведения распределённой информации в общую систему на основе RDF представления.


Практические занятия

  1. Методы и приемы выбора источников информации и сбор вторичных данных. Оценка полученных данных и решение о необходимости первичных данных.
  2. Построение моделей методами Data Mining. Преобразование данных в полезную для принятия решений информацию.
  3. Способы устранение рассогласованности данных. Неопределенность данных, виды неопределенности.
  4. Представление документов в виде векторов взвешенных ключевых слов.
  5. Концептуальное, логическое и физическое представления данных на этапах проектирования баз данных и при сопровождении информационной модели.
  6. Организация данных на носителях в среде хранения, указатели, цепи и кольцевые структуры, физическое представление древовидных и сетевых структур.
  7. Растровое и векторное представление метрической информации. Топологическое и нетопологическое векторное представление.
  8. Визуализация базы геоданных. Основные топологические характеристики моделей баз геоданных. Способы представления трехмерных моделей.
  9. Значения отношений, переменные отношений, виды отношений. Алгебра отношений и исчисление отношений, реляционные операции: выборка, проекция и соединение.
  10. Предложения CREATE, ALTER, DROP, INSERT, UPDATE, DELETE, GRANT, REVOKE, SET ROLE.
  11. Использование реляционных и булевых операторов для создания сложных предикатов, элементы мат. логики.
  12. Использование подзапросов с командами обновления INSERT, DELETE, UPDATE.
  13. Корректное удаление и обновление информационных ресурсов.
  14. Системный каталог, использование представлений для таблиц каталога.
  15. Основные понятия ODL. Объектно-ориентированное проектирование.
  16. Базы данных SQL Server. Объекты базы данных.
  17. Настройка свойств среды SQL Server Management Studio.
  18. Интеграция серверов Web и SQL Server.
  19. Доступ к источникам данных ODBC. Модель объектов рабочего пространства ODBCDirect.
  20. Язык запросов XPath.
  21. Пример сведения распределённой информации в общую систему на основе RDF представления.

Лабораторные занятия

Работа с реляционными данными

  1. Использование SQL для выборки данных из таблицы, формирование запроса. Microsoft Office Access 2007, SQL ServerExpress 2012.
    • Выбор первичного ключа PRIMARY KEY, внешние и родительские ключи PARENT KEY и FOREIGN KEY, контроль ссылочной целостности.
  2. Примеры с использованием специальных операторов и функций агрегирования. Microsoft Office Access 2007, SQL ServerExpress 2012.
    • Примеры с использованием специальных операторов IN, BETWEEN, LIKE, IS NULL.
    • Суммирование данных с помощью функций агрегирования COUNT, SUM, AVG, MAX, MIN, предложения GROUP BY и HAVING.
    • Форматирование результатов запроса, упорядочение выходных полей с помощью ORDER BY, упорядочение по множеству столбцов.
    • Соединение таблиц – операция JOIN, операция соединения двух копий одной таблицы, алиасы, исключение избыточности.
    • Вложение запросов, DISTINCT с подзапросами, использование функций агрегирования в подзапросах, подзапросы с HAVING, связанные подзапросы.
    • Использование оператора EXISTS, комбинирование EXISTS и соединений, EXISTS и агрегаты.
    • Специальные операторы ANY и ALL, равенства и неравенства.
    • Объединение множества запросов в один – предложение UNION, использование UNION с ORDER BY, внешнее соединение.
  3. Реализация ограничений в таблицах. Создание и преобразование представлений. Microsoft Office Access 2007, SQL ServerExpress 2012.
    • Реализация ограничений в таблицах, учет уникальности значений.
    • Формы ограничения для первичного ключа PRIMARY KEY, ограничения внешнего ключа FOREIGN KEY, действие ограничений.
    • Обновление представлений, представления и соединения, представления и подзапросы, удаление представлений, выбор значений размещенных в представлениях.
  4. Программная среда PL/SQL. Управляющие конструкции. Использование явных и неявных курсоров. SQL ServerExpress 2012.
    • Использование явных и неявных курсоров. Выбор типа курсора. Примеры.
    • Составление программ на PL/SQL с использованием явных и неявных курсоров.

Освоение СУБД SQL ServerExpress 2012

  1. Настройка свойств среды SQL Server Management Studio под конкретного пользователя. Мастера администрирования. Работа с встроенной документацией. Среда SQL Server Management Studio SQL Server 2012, SQL ServerExpress 2012.
  2. Установка, запуск, приостановка и возобновление работы SQL сервера. Настройка свойств сервера. Создание задания. Просмотр журнала ошибок. Просмотр и создание сообщений SQL Server. Среда SQL Server Management Studio SQL Server 2012, SQL ServerExpress 2012.
  3. Подключение баз данных из различных источников к SQL Server. Группы и роли. Изменение владельца базы данных. Установка разрешений для гостя базы данных. Режимы работы системы безопасности SQL Server. Управление пользователями базы данных. Управление доступом к базам данных SQL Server. SQL ServerExpress 2012.

Работа с преобразованием XML форматов

  1. Просмотр и анализ примера XML -файла для описания различных типов недвижимости. Создание запросов к реляционной базе данных, поддерживающей XML.

Конвертор форматов XML-SQL, SQL ServerExpress 2012.

Необходимое программное обеспечение

  • программные системы Windows 2007, Microsoft Office Access 2007, SQL ServerExpress 2012;
  • среда SQL Server Management Studio SQL Server 2012, конвертор форматов XML-SQL.
  • Электронные ресурсы, включая доступ к базам данных


Литература

Основная литература

  1. Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы: Учебник. - М.: Финансы и статистика, 2004.
  2. Дюк В., Самойленко A. Data Mining. Учебный курс. - С-Пб.: Питер, 2001.
  3. К. Дж. Дейт. Введение в системы баз данных. Седьмое издание. М.: Издательский дом «Вильямс», 2001.
  4. Гарсиа-Молина Г., Ульман Дж.Д., Уидом Дж. Системы баз данных. Полный курс // М.: Вильямс, 2003
  5. Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я. Геоинформатика. – М.: МаксПресс, 2001.
  6. Обзор методов доступа к данным: DAO, ADO, RDO. URL
  7. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый курс. -М: Вильямс, 2010, 816 с. URL
  8. XML и базы данных. URL
  9. Краткое введение в RDF. URL

Дополнительная литература

  1. Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004.
  2. Карпова Т.С. Базы данных. Модели, разработка, реализация. - СПб.: Питер, 2001.
  3. Коннолли Т. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. 3-е издание. — М.: Вильямс, 2003.
  4. Д. Кренке. Теория и практика построения баз данных. 8 изд. М.: Питер, 2003.
  5. Дьюсон Р. SQL Server 2008 для начинающих разработчиков. – СПб.: БХВ-Петербург, 2009, 704 с.


Программу составил
С.К. Дулин, профессор, д.т.н.

См. также

Список подстраниц

Технологии организации данных (курс лекций, С.К.Дулин)/Вопросы
Личные инструменты