Ответы на билеты по предмету: Базы данных (Пример)
Содержание
1. Основные понятия БД. Классификация по модели данных. Классификация по среде постоянного хранения. Классификация по содержимому. Классификация по степени распределенности. Другие виды БД
2. Принципы построения.
3. Жизненный цикл БД.
4. Типология БД.
5. Документальные БД.
6. Фактографические БД.
7. Гипертекстовые и мультимедийные БД, XML-серверы.
8. Объектно-ориентированные БД.
9. Распределенные БД.
10. Коммерческие БД.
11. Организация процессов обработки данных в БД. Запросы
12. Ограничения целостности.
13. Технология оперативной обработки транзакции (ОLТР–технология).
14. Информационные хранилища.
15. ОLАР-технология.
16. Проблема создания и сжатия больших информационных массивов, информационных хранилищ и складов данных. Методы сжатия данных. Пропуски пустот в записях.
17. Основы фракталов. Фрактальная математика. Фрактальные методы сжатия.
18. Управление складами данных. Подсистемы
Выдержка из текста
1. Базы данных (БД).
База данных — представленная в объективной форме совокупность самостоятельных материалов (статей, расчётов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ).
Многие специалисты указывают на распространённую ошибку, состоящую в некорректном использовании термина «база данных» вместо термина «система управления базами данных», и указывают на необходимость различения этих понятий.
Классификация по модели данных
• Иерархическая
• Объектная и объектно-ориентированная
• Объектно-реляционная
• Реляционная
• Сетевая
• Функциональная.
Классификация по среде постоянного хранения
• Во вторичной памяти, или традиционная (англ. conventional database): средой постоянного хранения является периферийная энергонезависимая память (вторичная память) — как правило жёсткий диск. В оперативную память СУБД помещает лишь кеш и данные для текущей обработки.
• В оперативной памяти (англ. in-memory database, memory-resident database, main memory database): все данные на стадии исполнения находятся в оперативной памяти.
• В третичной памяти (англ. tertiary database): средой постоянного хранения является отсоединяемое от сервера устройство массового хранения (третичная память), как правило на основе магнитных лент или оптических дисков.
• Во вторичной памяти сервера хранится лишь каталог данных третичной памяти, файловый кеш и данные для текущей обработки; загрузка же самих данных требует специальной процедуры.
Классификация по содержимому
• Географическая
• Историческая
• Научная
• Мультимедийная
• Клиентская.
Классификация по степени распределённости
• Централизованная, или сосредоточенная (англ. centralized database): БД, полностью поддерживаемая на одном компьютере.
• Распределённая (англ. distributed database): БД, составные части которой размещаются в различных узлах компьютерной сети в соответствии с каким-либо критерием.
• Неоднородная (англ. heterogeneous distributed database): фрагменты распределённой БД в разных узлах сети поддерживаются средствами более одной СУБД
• Однородная (англ. homogeneous distributed database): фрагменты распределённой БД в разных узлах сети поддерживаются средствами одной и той же СУБД.
• Фрагментированная, или секционированная (англ. partitioned database): методом распределения данных является фрагментирование (партиционирование, секционирование), вертикальное или горизонтальное.
• Тиражированная (англ. replicated database): методом распределения данных является тиражирование (репликация).
Другие виды БД:
• Пространственная (англ. spatial database): БД, в которой поддерживаются пространственные свойства сущностей предметной области. Такие БД широко используются в геоинформационных системах.
• Временная, или темпоральная (англ. temporal database): БД, в которой поддерживается какой-либо аспект времени, не считая времени, определяемого пользователем.
• Пространственно-временная (англ. spatial-temporal database) БД: БД, в которой одновременно поддерживается одно или более измерений в аспектах как пространства, так и времени.
• Циклическая (англ. round-robin database): БД, объём хранимых данных которой не меняется со временем, поскольку в процессе сохранения новых данных они заменяют более старые данные. Одни и те же ячейки для данных используются циклически.
Список использованной литературы
18. Управление складами данных
Подсистема загрузки данных – программное обеспечение (ПО), которое в соответствии с определенным регламентом извлекает данные из источников и приводит их к единому формату, определенному для хранилища. Данная подсистема отвечает за формализованную логическую согласованность, качество и интеграцию данных, которые загружаются из источников в оперативный склад данных.
Хранилище данных (в узком смысле) представляет собой предметно-ориентированную базу или совокупность БД, извлекаемых из источников, которые организованы по сегментам, отражающим конкретную предметную область бизнеса: производство, правило, детальные слабо агрегированные данные.
• Хранилище данных
• Модель данных
• Модель данных современных СППР строится на основе пяти классов данных:
o источников данных;
o хранилища данных (в узком смысле);
o оперативного склада данных;
o витрины данных;
o метаданных.
Определение понятию «хранилище данных» первым дал Уильям Инмон: «предметно-ориентированная, интегрированная, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений».
Источниками данных хранилища служат оперативные транзакционные системы, которые обслуживают повседневную учетную деятельность компании. Необходимость включения той или иной транзакционной системы в качестве источника определяется бизнес-требованиями к СППР. Исходя из этих же требований, в качестве источников данных могут быть рассмотрены внешние системы, в том числе и Интернет. Детальные данные из источников могут либо напрямую поступать в хранилище, либо предварительно агрегироваться до требуемого уровня обобщения.
Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре.
На первом уровне расположены разнообразные источники данных − внутренние регистрирующие и справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели).
Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления, и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников.
Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.
Хранилище на самом верхнем уровне состоит, как правило, из трех подсистем:
• подсистемы загрузки данных;
• подсистемы обработки запросов и представления данных;
• подсистемы администрирования хранилища.
Каждый источник данных требует разработки собственного загрузочного модуля. Каждый модуль должен решать два класса задач:
• начальной загрузки ретроспективных данных;
• регламентного пополнения хранилища данными из источников.
Подсистема также по регламенту извлекает детальные данные из оперативного склада, производит их агрегирование, консолидацию, транформацию и помещает данные в хранилище и витрины данных. Именно в этой подсистеме должны быть определены все бизнес-модели консолидации данных по иерархическим измерениям и выполнены вычисления зависимых бизнес-показателей по независимым исходным данным.
Подсистема обработки запросов и представления данных – ПО, которое обеспечивает извлечение данных, их аналитическую обработку и представление конечным пользователям. Как правило, можно выделить три типа этого ПО:
• программное обеспечение регламентированной отчетности, которое характеризуется заранее предопределенными запросами данных и их представлениями бизнес-пользователям. От данного ПО не требуется быстрого времени реакции. Из соображений стоимости эффективности для его реализации в наибольшей степени подходит технология ROLAP;
• программное обеспечение нерегламентированных запросов пользователей. Это ПО – основной способ общения бизнес-аналитиков с хранилищем, при котором каждый последующий запрос к данным и вид их представления определяются, как правило, результатами предыдущего запроса. Для приложений данного типа требуется высокая скорость обработки запросов (единицы секунд).
Данное ПО реализуется технологией MOLAP и специальными инструментами построения сложных нерегламентированных запросов с интуитивно понятным для бизнес-аналитиков графическим интерфейсом;
• программное обеспечение добычи знаний, которое реализует сложные статистические алгоритмы и алгоритмы искусственного интеллекта, предназначенные для поиска скрытых в данных закономерностей, представления этих закономерностей, представления этих закономерностей в виде моделей и многовариантного прогнозирования по ним развития ситуаций по схеме «Что если …?».
Подсистема администрирования хранилища – ПО, связанное с поддерживанием системы и обеспечением ее устойчивой работы и расширения. Можно выделить, по крайней мере, четыре класса задач, расширение которых должна обеспечивать данная подсистема:
• администрирование данных, которое включает в себя регулярное пополнение данных из источников, если необходимо; ручной ввод, сверку и корректировку данных в оперативном складе. Администрирование данных ведется, как правило, бизнес-пользователями, а ответственность распределяется по предметно-ориентированным сегментам;
• администрирование хранилища данных. В задачу администрирования хранилища входят все вопросы, связанные с поддержанием архитектуры хранилища, обеспечением его эффективной и бесперебойной работы, защитой и восстановлением данных после сбоев;
• администрирование доступа к данным обеспечивает сопровождение профилей пользователей, разграничение доступа к конфиденциальным данным, защиту информации от несанкционированного доступа;
• администрирование метаданных системы.
Оперативный склад данных (Operational Data Store – ODS) − технологический элемент хранения данных в СППР, который служит буфером между транзакционными источниками данных и хранилищем. Данные, прежде чем попасть в хранилище, должны быть преобразованы в единые форматы, очищены, объединены и синхронизированы. Например, данные, необходимые для поддержки принятия решения, могут существовать в транзакционной системе более короткое время (часы, дни), чем период пополнения данных хранилища (дни, недели).
Или семантически однородные данные поступают из транзакционных систем в разное время. В этом случае оперативный склад данных служит аккумулятором данных, поступающих от источников, перед их загрузкой в хранилище. В отличие от хранилища данных информация в складе данных может изменяться со временем в соответствии с изменениями, происходящими в источниках данных.
Оперативный склад данных создается как промежуточный буфер между оперативными системами и хранилищем данных. Эта конструкция аналогична конструкции хранилища данных. Идентичность оперативного склада и хранилища данных состоит в их предметной ориентированности и хранении детальных данных. Отличие от хранилища данных состоит в том, что оперативный склад данных:
• имеет изменяемое содержимое,
• содержит только детальные данные,
• содержит текущие значения данных.
Детальные данные − это данные из оперативных и внешних систем, не подвергавшиеся операциям обобщения, суммирования, т.е. данные, не изменившие своей семантики. Из оперативных систем и внешних источников данные поступают в оперативный склад, проходя процессы трансформации.
Данные оперативного склада регулярно обновляются. Каждый раз, когда данные изменяются в оперативных системах и внешних источниках, соответствующие им данные из оперативного склада также должны быть изменены. Частота обновления оперативного склада зависит как от частоты обновления источников, так и от регламента загрузки данных в склад.
Витрины данных (Data mart)
Витрины данных можно представить в виде логически или физически разделенных подмножеств хранилищ данных. Обычно они строятся для обслуживания нужд определенной группы пользователей.
Источником данных для витрин служат данные хранилища, которые, как правило, агрегируются и консолидируются по различным уровням иерархии. Детальные данные могут также помещаться в витрину или присутствовать в ней в виде ссылок на данные хранилища.
Функционально ориентированные витрины данных представляют собой структуры данных, обеспечивающие решение аналитических задач в конкретной функциональной области или подразделении компании, например управление прибыльностью, анализ рынков, анализ ресурсов и пр. Иногда эти структуры хранения данных называют также киосками данных.
Различные витрины данных содержат разные комбинации и выборки одних и тех же детализированных данных хранилища. Важно, что данные витрины поступают из центрального хранилища данных.