Физические модели хранения данных, Файловые структуры организации базы данных - Проблема организации и хранения данных

Физические модели хранения данных определяют методы размещения данных в памяти компьютера или на соответствующих носителях информации, а также способы хранения и доступа к этим данным. Исторически первыми системами хранения и доступа были файловые структуры и системы управления файлами (СУФ). Фактически файловые структуры хранения информации являлись и являются основой операционных систем. В системах управления базами данных использование файловых систем хранения информации оказалось не эффективным потому, что пользователю требовалась информация в виде отдельных данных, а не содержание всего файла. Поэтому в современных СУБД перешли от файловых структур к непосредственному размещению данных на внешних носителях - устройствах внешней памяти. Однако механизмы управления, применяемые в файловых системах, во многом перешли и в новые системы организации данных во внешней памяти, называемые чаще страничными системами хранения информации.

Файловые структуры организации базы данных

В каждой СУБД по-разному организованы хранение и доступ к данным, однако существуют некоторые файловые структуры, которые применяются практически во всех СУБД.

В системах баз данных файлы и файловые структуры, которые используются для хранения информации во внешней памяти, можно классифицировать.

С точки зрения пользователя, файл представляет собой поименованную область дискового пространства, в которой хранится некоторая последовательность записей. В таком файле всегда можно определить первую и последнюю запись; текущую запись; запись, предшествующую текущей и следующую за ней.

В соответствии с методами управления доступом к информации в файлах различают устройства внешней памяти (накопители информации) с произвольной адресацией, или прямым доступом (магнитные и оптические диски), и устройства с последовательной адресацией, или последовательным доступом (магнитофоны, стриммеры).

На устройствах с произвольной адресацией возможна установка головок для чтения записи в любую область накопителя практически мгновенно.

На устройствах с последовательной адресацией вся память рассматривается как линейная последовательность информационных элементов. Поэтому в таких накопителях для получения информации требуется пройти некоторый путь от исходного состояния считывающего устройства до нужной записи.

Рис. 2. Классификация файловых структур

Файлы с постоянной длиной записи, расположенные на устройствах прямого доступа (УПД), являются файлами прямого доступа. В этих файлах физический адрес расположения нужной записи может быть вычислен по номеру записи (NZ). Каждая файловая система -- система управления файлами -- поддерживает некоторую иерархическую файловую структуру, включающую чаще всего ограниченное число уровней иерархии в представлении внешней памяти (рис. 9).

Для каждого файла в системе хранится следующая информация:

Имя файла;

Тип файла (например, расширение или другие характеристики);

Размер записи;

Число занятых физических блоков; - базовый начальный адрес;

Ссылка на сегмент расширения;

Способ доступа (код защиты).

Рис. 3 Иерархическая файловая структура

Для файлов с постоянной длиной записи адрес размещения записи с номером К может быть вычислен по формуле

ВА+(К - 1) * LZ + 1,

Где ВА - базовый адрес; LZ - длина записи.

Если можно определить адрес, на который необходимо позиционировать механизм считывания записи, то устройства прямого доступа делают это практически мгновенно, поэтому для таких файлов чтение произвольной записи практически не зависит от ее номера.

На устройствах последовательного доступа могут быть организованы файлы только последовательного доступа.

Они могут быть организованы двумя способами:

    1. конец записи отмечается специальным маркером; 2. в начале каждой записи записывается ее длина.

Файлы с прямым доступом обеспечивают достаточно надежный способ доступа к записи. Основным недостатком файлов прямого доступа является то, что поиск записи производится по ее номеру, что при большом числе записей занимает существенное время.

Суть методов хеширования состоит в том, что выбираются значения ключа (или некоторые его характеристики), которые используются для начала поиска, т. е. вычисляется так называемая хеш-функция h(k), где k - значение ключевого поля. В этом случае число шагов поиска значительно уменьшается. Однако при таком подходе возможны ситуации, когда нескольким разным ключам может соответствовать одно значение хеш-функции, т. е. один адрес. Подобные ситуации называются коллизиями. Значения ключей, которые имеют одно и то же значение хеш-функции, называются синонимами.

Поэтому при использовании хеширования как метода доступа необходимо принять два независимых решения:

Выбрать хеш-функцию;

Выбрать метод разрешения коллизий.

Существует множество различных стратегий разрешения коллизий, наиболее распространенными из которых являются:

Разрешение коллизии с помощью области переполнения;

Разрешение коллизии методом свободного замещения.

Похожие статьи




Физические модели хранения данных, Файловые структуры организации базы данных - Проблема организации и хранения данных

Предыдущая | Следующая