Главная » CADmaster №1(6) 2001 » Хранилища данных и документооборот Хранилища данных, или Где хранить терабайт?
Кто из конструкторов-разработчиков не бывал в архиве? Огромные стеллажи с папками… запах бумажной пыли… шкафы с каталогизаторами… Если на вашем предприятии нет ничего подобного, я за вас рад, но, тем не менее, разобраться с проблемами сохранения данных (чертежей, таблиц, спецификаций, извещений и прочих документов, которые могут понадобиться сегодня, завтра, через десять лет, а могут не понадобиться вовсе) все равно стоит.
Когда в САПР только начинали использовать первые 286-е компьютеры, проблема представлялась несколько иначе. Объем данных был невелик. И даже если на компьютерах и дискетах они время от времени пропадали, эйфория от того, что выпуск извещений об изменении в проекте занимает теперь на порядок меньше времени, позволяла воспринимать это как банальные неудобства. Все равно все важные и финальные документы хранились в бумажном виде, а оперативный доступ к данным осуществлялся простой передачей дискет на 360 Kb или с помощью нехитрой утилитки обмена данными через последовательный порт RS-232.
Но все меняется. Теперь, когда технологии САПР вышли за рамки плоского чертежа, приходится заботиться и о данных, которые не могут быть представлены иначе как в компьютерной форме: цифровых пространственных моделях, динамическом представлении результатов, таблицах расчетов… При этом объемы данных, обрабатываемых на современных рабочих станциях, иногда очень велики. Опыт показывает, что при современном проектировании в составе средней рабочей группы (около 20 человек) под управлением системы документооборота, требующей постоянной верификации и синхронизации файлов, хранения нескольких версий каждого набора данных, приходится оперировать объемами в сотни, а то и тысячи гигабайт… И только для оперативной работы! А ведь есть еще и архив, и резервное копирование… Данные в конструкторском бюро растут как снежный ком. Что же делать?.. Как решить проблему архивов, резервного копирования и оперативного доступа к столь значительным массивам информации максимально эффективным образом?
К счастью, с подобными проблемами конструкторские бюро столкнулись не первыми: решения уже были найдены и апробированы в научных институтах и банках, чьи суперкомпьютеры хранят сотни терабайт данных и успешно ими оперируют. Эти организации перепробовали множество технологий — нам же нужно только выбрать лучшее из возможного…
Прежде всего следует разобраться, какие существуют технологические решения, способы организации хранилищ данных (именно этим термином мы будем пользоваться для описания рассматриваемых устройств: англоязычный вариант Mass Storage — «массовое хранилище» или «массовый накопитель» — не так благозвучен). И, самое главное, четко уяснить себе цель… для чего, собственно, вам понадобилось хранилище…
Как их классифицировать?
Хранилища данных делятся:
- по типам носителей;
- по способу организации;
- по областям применения.
Тип носителя задает физический способ хранения информации. Это одна из базовых характеристик при позиционировании хранилища, зачастую определяющая области его применения. Носитель задает такие характеристики накопителя, как возможность перезаписи данных, скорость выборки, темп чтения и обновления данных, надежность и долговременность хранения, максимальный размер файла, а также множество других параметров. Например, для записи на магнитной ленте характерна высокая скорость чтения и записи, но последовательный доступ не позволяет осуществлять быстрое позиционирование нужных данных, а способ записи и чтения (головка касается магнитного слоя ленты) ограничивает надежность носителя (при частом использовании магнитный слой истирается). Оптические накопители (CD и DVD), напротив, очень надежны (чтение/запись осуществляется лазером, и непосредственного контакта линзы лазера с носителем не происходит), однако необходимость отслеживать записывающую дорожку на диске и инерционные тепловые процессы при записи уменьшает скорость считывания и записи.
В таблице приведены базовые характеристики носителей.
Тип носителя | Скорость чтения | Скорость записи | Время доступа | Возможность записи | Возможность перезаписи | Удельная стоимость хранения 1 Гб 1 | Срок хранения 2 |
---|---|---|---|---|---|---|---|
CD | Выше средней | Нет | Среднее | Нет | Нет | $ 0,8−1,5 | Более 100 лет |
CD-R | Среднее | Средняя | Средняя | Да | Нет | $ 1−1,5 | Более 100 лет |
CD-RW | Средняя | Средняя | Среднее | Да | Да | $ 1,5−3 | 100 лет |
DVD-RAM | Средняя | Средняя | Среднее | Да | Да | $ 5−11 | Более 100 лет |
Магнитная лента (Tape) | Высокая | Высокая | Большое | Да | Да | $ 0,7−1,7 | 30 лет |
Магнитооптический диск (MO) | Высокая | Высокая | Малое | Да | Да | $ 1,6−2,5 | 50−100 лет |
Жесткий диск (HDD) | Очень высокая | Очень высокая | Очень малое | Да | Да | $ 3,5−30 | Не определяется |
Доступ к данным на носителях обеспечивают приводы (у жесткого диска привод интегрирован с носителем). Характеристики привода тоже очень важны, но у различных производителей могут существенно отличаться. Базовые характеристики приводов для различных носителей собраны в таблице (данные приводятся по разным производителям).
Привод | Потоковая скорость чтения 3, Мб/сек. | Потоковая скорость записи 3, Кб/сек. | Потоковая скорость перезаписи 3, Кб/сек. | Время доступа, мсек. | Емкость носителя | Время наработки на отказ (MTBF), час. |
---|---|---|---|---|---|---|
CD-ROM | 0,9−2,4 | Невозможно | Невозможно | 100−170 | 650, 740 Мб | 100 000 |
CD-R | 0,9−2,4 | 0,9−1,8 | Невозможно | 125−180 | 650, 740, 800 Мб | 100 000 |
CD-RW | 0,9−2,4 | 0,9−1,8 | 0,9−1,2 | 125−180 | 650, 740, 800 Мб | 100 000 |
DVD-RAM | 1,35−2,8 | 1,35−2,0 | 1,35−2,0 | 80−180 | 1,46, 2,6, 4,7 Гб | 100 000 |
Tape | 1,1−6,0 | 1,1−6,0 | 1,1−6,0 | 1000 для самых быстрых | 512 Mb, 1,2; 2,5; 4; 8; 24; 40; 80 Гб | 250 000 (читающая головка 50 000) |
MO | 2,1−4,6 | 1,1−2,3 | 1,6−2,3 | 15−35 | 128, 230, 640 Мб, 1,3; 2,6; 4,2; 9,1 Гб | 250 000 |
HDD | до 39,4 | до 39,4 | До 39,4 | 4,8−16 | до 250 Гб | До 1 200 000 |
Поскольку объем данных носителя ограничен, для большого хранилища информации применяют специальную организацию носителей и приводов в единое устройство.
Способ организации приводов в хранилище — исключительно важная характеристика, которая в очень большой степени определяет скорость доступа, время выборки данных и цену. Возможные способы объединения:
- Массив (Array, Matrix). Каждый носитель снабжен собственным приводом, а все приводы объединены в единое хранилище посредством специальных интерфейсов. Если к хранилищу предъявляются специальные требования по надежности, приводы преобразуются в целые матрицы с избыточным хранением данных (и — дисковый массив с избыточностью данных). В таких матрицах выход из строя одного или даже нескольких приводов не влечет потери данных, а горячую замену (и) привода можно осуществлять прямо на работающем устройстве. При повышенных требованиях к скорости доступа, матрицы преобразуют в специализированные комплексы с параллельной записью на множество дисков, оснащают специальными SCSI-переключателями для работы нескольких пользователей и применяют другие оригинальные технические решения. К сожалению, организация хранилища в виде массива при всей его технической мощи требует серьезных затрат и подходит далеко не для любой цели.
-
Библиотека (Jukebox, Library). На один привод в таком хранилище приходится несколько носителей. Носители размещены в слотах магазинной системы, а их сменой занимаются сервисный механизм или роботизированная система, которые оперируют носителями в зависимости от внешних команд. Такая организация позволяет создавать невероятно большие хранилища с сотнями приводов, десятками тысяч носителей и емкостью в тысячи терабайт. При этом удельная стоимость хранения очень невысока. Используя совместимость многих носителей сверху вниз (например, CD-ROM, CD-RW и DVD-RAM; МO- и WORM-диски; ленты разной емкости), в библиотеках можно комбинировать и приводы разных типов. При этом усложнение, вызванное неоднородностью библиотеки, компенсируется ее гибкостью, лучшей масштабируемостью и еще более низкой удельной стоимостью хранения единицы информации. Конечно, есть у библиотек и слабая сторона: из-за того, что сервомеханизму требуется время для смены носителей в приводах, могут происходить задержки при произвольной выборке информации.
Библиотеки с единственным приводом принято называть автозагрузчиками (Autoloaders).
По областям применения хранилища можно условно разделить на:
- устройства архивирования (archive), призванные обеспечить долгосрочное сохранение информации с нечастыми выборками чтения/записи и относительно редкими (либо вовсе отсутствующими) запросами на модификацию. Основная цель архивирования — долговременное хранение информации; при этом подразумевается, что в любое время ее можно извлечь. Архивированию подлежат, например, законченные проекты, бухгалтерская отчетность, лог-файлы серверов, таблицы с результатами расчетов, отсканированные чертежи из бумажных архивов — в общем, все, что традиционно помещалось в архив, плюс важнейшая информация из разряда той, что в докомпьютерную эру попросту не существовала. Процедура восстановления данных из архива называется разархивированием или извлечением (retrieve).
- устройства резервного копирования (backup). Как ясно из названия, резервное копирование предназначено для хранения информации с тем, чтобы ее можно было восстановить при авариях или сбоях в информационных системах — например, в случае выхода из строя жесткого диска компьютера или сервера, вирусной атаки либо другой нештатной ситуации. Для таких устройств очень важна поддержка актуальности хранимых данных и возможность перезаписи неактуальной (устаревшей) информации. Оперативность доступа к данным первостепенной не является, но скорость записи (резервного копирования) и чтения (восстановления) довольно существенна. Предпочтительно для таких систем и наличие вспомогательных функций (возможность создания загрузочных носителей, верификация, автоматическое резервное копирование по расписанию, работа в составе рабочих групп, поддержка различных серверных платформ) существенно упрощают работу с системой и уменьшают эксплуатационные издержки.
- устройства оперативного хранения. Для обработки больших объемов данных рабочей группе необходим постоянный и максимально оперативный доступ к ним. В рабочих станциях устройствами оперативного хранения служат жесткие диски. Серверы рабочих групп тоже снабжены накопителями на жестких дисках. Групповая работа с накопителем сервера, как правило, осуществляется через сетевую среду (локально-вычислительную сеть — ЛВС).
Как выбрать хранилище?
Теперь, когда мы разобрались со способами организации, областями использования хранилищ и свойствами применяемых в них носителей, казалось бы, окончательный выбор сделать несложно. Однако это не совсем так.
Конечно, некоторые решения лежат на поверхности. Например, резервное копирование для небольшой рабочей группы лучше производить на ленточный накопитель, а для небольшой архивной системы нужно выбрать CD-RW или DVD-RAM автозагрузчик или небольшую масштабируемую библиотечную систему с двумя или тремя приводами. Но… Тот же ленточный накопитель отлично покажет себя как backup данных, а при сбое операционной системы восстановление данных вызовет некоторые трудности… Автозагрузчики же с возможностью создания загрузочных носителей справятся с этой задачей эффективнее… И это только верхушка айсберга.
Если необходимо создание комплексного решения, где будут и солидное оперативное хранилище, и архивная система, и средства резервного копирования — выбор усложняется многократно. Логичная, на первый взгляд, схема, при которой емкость каждого хранилища соответствует ожидаемым потребностям, оказывается чересчур дорогостоящей и неэффективной. Необходимо помнить, что многие производители хранилищ имеют масштабируемые решения, и вовсе не обязательно комплектовать хранилище «по полной программе». А если учесть золотое правило 80%/20%, согласно которому 80% пользователей используют только 20% процентов ресурса, можно найти и еще более эффективное решение, объединив оперативное хранилище с архивом. Неравномерный характер обращений к данным и их неоднородная структура во многих случаях позволяют эффективно применять системы иерархического хранения данных (Hierarchical Storage Manager, HSM). В системах HSM редко используемые данные автоматически переносятся с жестких дисков оперативного хранилища на более медленные и не столь дорогие носители архивной системы. Когда же пользователь обращается к этим данным, они автоматически копируются обратно — на быстрые носители. Таким образом, с точки зрения пользователя, хранилище HSM-архитектуры выглядит как огромного размера дисковая система. Цена же такого иерархического хранилища много ниже дискового массива той же емкости. Оценив характер обращений к данным и оптимизировав их, в некоторых случаях можно ограничить объемы резервного копирования или вовсе от него отказаться.
Но и это еще не все, что следует учесть при выборе. Практически все производители библиотечных систем поставляют различные конфигурации своих устройств: с различным числом и набором приводов, магазинов и слотов, с возможностью установки слота обмена (mail-slot) или без нее, допускающие или не допускающие горячую замену привода… Интерфейсные соединения тоже различны. Например, библиотечные хранилища DVD-RAM, производимые компанией NSM Storage GMbH, могут иметь более десяти тысяч различных конфигураций — даже ограничив выбор базовыми моделями, следует тщательно продумать стратегию внедрения системы, а заодно этапы и сроки ее масштабирования. Конечно, в техническом плане систему не так уж страшно «перетяжелить» на начальном этапе. Но вот с финансовой точки зрения это довольно опрометчиво. Электронные компоненты постоянно развиваются, и, масштабируя хранилище, в будущем можно не только усовершенствовать его технически, но и значительно сэкономить.
Обобщим. При выборе хранилища, наилучшим образом подходящего для того или иного случая, надо не только учесть базовые требования, но и оценить характер обращений к данным в сетевой среде, объем и темп запросов, спрогнозировать ожидаемые пиковые нагрузки, не упустить из виду десятки других параметров. А потому нелишним будет проконсультироваться у специалистов, имеющих богатый опыт внедрения.
Программное обеспечение для работы с хранилищами
Основная масса представленных на рынке хранилищ подразумевает серверное подключение: клиенты продолжают работать как привыкли. Никакого клиентского ПО не требуется (правда, бывают и исключения).
К сожалению, пока не создано универсального серверного обеспечения для работы с хранилищами: для каждой области применения его следует выбирать отдельно. Определенные ограничения накладывает оборудование. Конечно, можно воспользоваться специально подготовленными комплексами, некими готовыми решениями, где аппаратура и программное обеспечение интегрированы в единое целое и неразделимы. Такое хранилище включается непосредственно в ЛВС предприятия и представляется пользователям дисковым ресурсом наподобие файл-сервера. Но это решение, при всей простоте интеграции, крайне негибко, тяжело в обслуживании и плохо поддается модернизации. Гораздо лучше попробовать несколько серверных программных пакетов и выбрать оптимальный. К счастью, такая возможность есть — ее предоставляют некоторые компании-поставщики.
Как видим, возможностей удовлетворить потребности современного конструкторского бюро вполне достаточно. К тому же эти решения не так дороги, как может показаться. Те, кто по старинке увеличивают емкости накопителей в серверах и рабочих станциях, не столько решают, сколько усугубляют проблему — будущее масштабирование окажется и трудным, и крайне дорогим… Распределенное хранение данных для рабочей группы не оптимально. Централизованное хранилище не только удобнее и эффективнее — почти всегда оно выгодно экономически. Не надо боятся новизны и сложности хранилищ данных: все несколько проще, чем кажется. Найдите специалистов по интеграции таких решений — и доверьтесь их профессионализму…
- Удельная стоимость хранения единицы информации рассчитывается как частное от деления стоимости носителя (CD, DVD-диска, MO-картриджа или кассеты с магнитной лентой) на его емкость. ↑
- Срок хранения приводится для оптимальных и рекомендованных условий хранения и эксплуатации. ↑
- Обратите внимание, что в таблице приводится потоковая скорость чтения, записи и перезаписи. Производители, как правило, показывают интерфейсные скорости, достижимые лишь при передаче данных из буфера привода в буфер интерфейсной платы. На практике этого практически не происходит. Предельная скорость чтения привода ограничивается скоростью движения записанных данных относительно считывающего устройства (головки, линзы). Если же данные считываются дискретно, считывающая головка вынуждена перемещаться от одной области данных к другой. В случае, когда происходит потоковое (непрерывное) считывание данных блок за блоком, возможно достижение предельной для привода скорости. Для организации хранилищ данных именно на потоковую скорость и следует ориентироваться. ↑
Скачать статью в формате PDF — 390.5 Кбайт |