Известно, что увеличение частоты сбоев является предвестником отказа. Поэтому боль­шин­ство ИС и все базовое ПО (ОС, СУБД) ведут журналы, в которых протоколируются сбойные ситуации. В обязанности администратора входит регулярный (в соответствии с регламентом) просмотр этих журналов, планирование и выполнение действий, на­п­рав­лен­ных на нейтрализацию причин сбоев и предотвращение отказов.

Пример

В СУБД создали новую базу. После этого в журнале событий стали появляться сообщения о невозможности завершения резервного копирования другой, уже существовавшей базы. Новая база копируется без проблем. В чем же дело? Для копирования обеих баз задан один и тот же раздел жесткого диска, которого как раз хватило для одной базы, но ко­то­рый оказался мал для двух баз. Планируемое действие: увеличить объем дисковой па­мя­ти (или перенаправление резервного копирования в другой раздел или и т. д.).

Отказы дублированных (резервированных) компонентов ИС могут рассматриваться как сбои ИС. Однако такие сбои могут приводить к длительному падению эффективности функционирования ИС и, возможно, к временному (на период восстановления от­ка­зав­ше­го компонента) снижению надежности ИС. Пример: отказ диска в массиве RAID5 на вре­мя замены и восстановления содержимого отказавшего диска (около 1 часа) понижает как надежность массива, так и производительность дисковой подсистемы.

Доступность

Доступность измеряется долей времени, в течение которой ИС работоспособна, и тесно связана с надежностью ИС.

Время неработоспособности ИС — это время ее восстановления после сбоя/отказа. Если вре­мя восстановления после сбоя, как правило, определяется при разработке ИС и обыч­но невелико (от долей секунды до нескольких минут), то время восстановления после от­ка­за зависит от наличия плана восстановления, выполнения мероприятий по подготовке к восстановлению после отказа, и обученного и тренированного персонала — ад­ми­нист­ра­то­ров ИС.

Эффективность

Эффективность функционирования ИС заключается в удержании определенных па­ра­мет­ров ИС в требуемых пределах. Один из основных таких параметров — время реакции (от­к­лика) на внешние воздействия (изменения данных, действия пользователей и др.). Вре­мя реакции ИС должно быть разумно малым; для этого следует выполнять настройки ис­поль­зо­ва­ния всех видов памяти, используемой ИС (перемещения часто используемых данных в бо­лее быструю память, - например, в специальную буферную область ОЗУ; уда­ление (ар­хи­вирование) неиспользуемых данных; дефрагментацию дискового прост­ран­с­т­ва (вклю­чая дефрагментацию свободного пространства на диске и пр.), настройки исполь­зования индексов; настройки пропускных способностей сетей (сетевых карт; топологии се­ти; ак­тив­ного оборудования сети и др.).

Все эти работы требуют измерений соответствующих параметров (необходимые из­ме­ри­тельные средства, как правило, присутствуют в составе ОС и СУБД/ИПС) и должны вы­пол­няться по определенным регламентам.

Лекция 5.  Резервное копирование

Основной проблемой восстановления работоспособности ИС после отказа является вос­с­та­новление хранимых данных. Отказ многих аппаратных компонентов ИС (процессора, па­мяти, контроллеров, внешних устройств, сетей передачи данных и пр.), как правило, на­рушает целостность хранимых данных. Поэтому подготовка к восстановлению данных яв­ляется важнейшим элементом планов работ по восстановлению работоспособности ИС. Такая подготовка включает в себя 3 компонента:

    Изготовление резервных копий данных (резервное копирование) Хранение резервных копий Тренировки персонала по восстановлению данных

Начнем с последнего. Тренировки должны быть регулярными, обеспечивающими авто­ма­тизацию навыков администраторов по восстановлению данных. Дело в том, что вос­с­та­нов­ление данных может занимать часы и требовать от администратора действий, вы­пол­ня­емых в строго определенной последовательности. Нарушение такой по­сле­до­ва­тель­нос­ти может приводить к повторению процедуры восстановления с ее начала — снова вы­зы­вая простой ИС.

Хранение резервных копий зависит от вида носителей. Например, магнитные носители следует хранить в размагниченном металлическом сейфе (шкафу), а оптические диски мож­но хранить в любом непрозрачном контейнере.

На любых носителях обычно изготавливаются не менее 2 резервных копий (как правило, 3), одна из которых хранится в помещении, в котором предстоит восстановление данных, а другая — в другом здании (желательно не ближе 10 — 15 км) — на случай стихийного бед­с­т­вия или теракта.

При использовании трех копий еще одна копия хранится в том же здании, где будет про­ис­ходить восстановление данных, но в помещении, отдаленном от того помещения, где эк­сплуатируется ИС.

Резервное копирование следует осуществлять настолько часто, насколько допустима по­те­ря части данных после их восстановления из последней резервной копии; например, если резервное копирование осуществляется 1 раз в сутки, то средний потерянный объем из­ме­нений данных — это изменения, сделанные за 12 часов работы ИС, а в худшем варианте — за все 24 часа. Резервное копирование может быть длительным процессом. Например, из­готовление полной резервной копии базы данных объемом 1 Гигабайт может занимать от 20 мин до 1 часа. А бывает ИС объемом в терабайты! Во время изготовления резервной ко­пии нельзя вносить изменения в данные, так что в это время функциональность ИС сни­же­на. Поэтому для резервного копирования следует принимать все возможные меры, сни­жающие время изготовления копии:

    Уменьшать объем копируемых данных Повышать производительность оборудования, на котором изготавливаются копии Использовать программное обеспечение, которое позволяет изменять данные, не затрагивающие це­лост­ность резервной копии (например, уже полностью ско­пи­ро­ванные).

Последняя мера сильно зависит от структуры хранимых данных и среды хранения, а пер­вые две носят универсальный характер.

Средства резервного копирования

Рассмотрим вкратце современное оборудование, применяемое для резервного копи­ро­ва­ния.

Таблица 1

Оборудование

Носитель данных

Тип

Стоимость оборудования

Интерфейс

Скорость передачи данных

Совместимость оборудования разных производителей

Тип

Емкость единичного носителя

Стоимость единичного носителя

Надежность

Время хранения

тыс. долл.

Мбайт/сек

Гбайт

долл.

лет

Цифровой магнитофон

1—10

SCSI

30–400

плохо

микрокассета

100–400

>100

В

>50

Магнито­оптический привод

0,5–1

SCSIATA

10

отлично

магнито­оптический диск

0,3–2

20

В

>100

DVD/R/RW

0,1–0,8

SCSIATA

10

средне

DVD/R
DVD/RW

4–25

>4

В

неизв.

CD-R/RW массовый

0,05–0,4

SCSIATA

10

хорошо

CD-R/RW

0,7

0,3

С

2

CD-R/RW про­мышлен­ный

2–10

SCSIATA

10–160

средне

CD-R/RW в спе­ци­альных кассетах

10–20

>10

В

5–10

НЖМД

0,07–3

SCSIATA

10–320

отлично

жесткий диск

100–300

50–100

С

>30

Выбор оборудования/носителей осуществляется исходя из баланса емкости, скорости за­пи­си, надежности и срока хранения и стоимости.

Схемы организации резервного копирования

Рассмотрим возможность уменьшения объема копируемых данных. Для этого ис­поль­зу­ют­ся 2 схемы организации копирования: дифференциальная и инкрементная. Для обеих схем процесс изготовления резервных копий планируется по определенным кален­дар­ным циклам. Например, при ежесуточном копировании цикл может составлять 5 — 7 дней, а при ежечасном — 6 — 12 часов.

В начале цикла выполняется полная копия данных. Эта копия делается дважды или боль­шее число раз — в зависимости от принятого числа резервных носителей. Нельзя сделать единственную копию, а затем реплики с нее, — потому, что именно эта единственная ко­пия может оказаться поврежденной. Напротив, рекомендуется сравнить все изготов­лен­ные копии для выявления и отбраковки дефектных.

На втором шаге цикла и для дифференциальной, и для инкрементной схем копиро­ва­ния выполняется копия только той части данных, которая была изменена за интервал вре­мени, прошедший с момента изготовления полной копии.

Объем таких данных в разы (а иногда в тысячи раз) меньше, чем объем полной копии (см. Рис. 15).

На третьем и последующих шагах циклов резервного копирования действия для диф­фе­рен­циальной и инкрементной схем копирования различаются. Для дифференциальной схемы по-прежнему изготавливается копия изменений данных относительно их сос­то­я­ния в момент полного копирования. Объем такой частичной (дифференциальной) копии постепенно растет. Для инкрементной схемы копируются только изменения данных, про­изошедшие за последний цикл копирования. Объем данных инкрементной копии ос­тается небольшим.


Рис. 15. Объемы копирования (гипотетический случай)
при пятидневном цикле изготовления резервных копий.
По оси X — периоды копирования, по оси Y — объемы (в мегабайтах)

В результате полная копия выполняется долго, но сравнительно редко. Диф­фе­рен­ци­аль­ная копия выполняется с нарастающим временем копирования, но использует немного но­сителей, поскольку после успешного завершения очередного копирования прежняя диф­ференциальная копия становится формально ненужной (в реальности предпос­лед­нюю дифференциальную копию всегда сохраняют — на тот случай, если последняя копия окажется поврежденной.). Инкрементная копия всегда выполняется быстро, но ис­поль­зу­ет большое количество носителей.

Восстановление данных при использовании дифференциальной схемы резервного копи­ро­вания происходит в 2 этапа: сначала восстанавливаются данные из последней полной ко­пии, а затем — изменения данных из дифференциальной копии. При использовании ин­крементной схемы процесс восстановления более длителен: вслед за восстановлением из полной копии идет последовательное восстановление из всех инкрементных копий.

В процессе любого восстановления данных любая из копий может оказаться дефектной. По­этому во избежание полной потери данных обычно хранятся носители с копиями 2 — 3 предыдущих поколений (скажем, при пятидневном цикле резервного копирования хра­нят­ся три последние полные копии и до трех инкрементных копий текущего цикла). Ко­неч­но, получить ИС в состоянии двухнедельной давности — не подарок, но полная потеря данных — это еще хуже.

Восстановление из резервной копии может требовать антивирусного сканирования — в том случае, когда сохранялись данные, в которых могли переноситься вирусы (например, до­кументы Word или базы электронной почты), поскольку на момент изготовления ко­пии вирус мог быть еще не обнаружен.

Лекция 6.  Типология информационных систем

Информационные системы можно классифицировать по различным признакам. Чаще всего используют 2 приз­на­ка: структуру хранимой в информационной системе инфор­ма­ции и время отклика.

Классификация информационных систем по времени отклика

По времени отклика информационные системы делятся на ИС реального времени и па­кет­ные. Информационные системы реального вре­мени имеют время отклика, доста­точ­ное для гарантированного решения задач, для кото­рых они предназначены, в требуемые сроки (например, время отклика ГИП не пре­вы­ша­ет времени комфортного ожидания пользователя — 0,2 ... 5 сек). Время отклика пакетных ИС варьируется в широких пределах и может составлять часы или даже сутки.

Классификация информационных систем по структуре хранимой информации

По структуре хранимой информации информационные системы делятся на объекто­гра­фи­ческие и докумен­таль­ные.

Объекто­гра­фи­ческие информационные системы

Информация, хранимая и обрабатываемая в объектографических информационных сис­те­мах, имеет строго определенную структуру. Каждая запись объектографической ИС состоит из определенных элементов — полей, содержимое которых строго регла­мен­ти­ро­вано (число, строка и др.). Записи объектографической ИС соответствуют объектам реаль­ного мира и искусственным сущностям — отсюда и название объектографическая. При­меры объектографических систем — все системы поддержки управления пред­при­я­ти­ями (ERP — Enterprise Resource Planning): бухгалтерия, кадры, склад, торговля, снаб­же­ние и поставки — объектографические.

Поиск в объектографических информационных системах осуществляется по сочетаниям локальных критериев, каждый из которых представляет собой булеву функцию от зна­че­ния того или иного поля (например, Накопленная Зарплата > 20000). Типовые за­дачи поиска в ОИС рассматриваются в процессе разработки ОИС и, как правило, долж­ны находить все требуемые и только требуемые записи. Эффективность поиска обеспе­чи­ва­ется использованием индексов. В качестве сред хранения информации ОИС исполь­зу­ют т. н. реляционные СУБД, а в качестве языка запросов, как правило, SQL.

Документальные информационные системы

Документальные информационные системы хранят слабо структурированную инфор­ма­цию. Запись документальной информационной системы обычно соответствует при­выч­но­му текстовому документу, хотя может содержать и некоторое количество полей типа тех, которые используются в объектографической ИС, например, дату создания до­ку­мен­та или его тип (статья, закон, стихи...). Такие поля соответствуют формальным атрибутам документа. Примеры документальных информационных систем: библиотечный каталог с аннотациями; полнотекстовая ИС типа Yandex или Google.

Поиск в документальных информационных системах так же, как и в объектографических ИС, осуществляется по соче­та­ни­ям локальных критериев, однако эти критерии применя­ют­ся не к документу, как к целому, а к некоторой функции документа, называемой поис­ко­вым образом документа (ПОД). Документальные информационные системы, как правило, отличаются непредсказуемым разнообразием поисковых задач, для которых, как мы увидим в дальнейшем, полнота («найти все документы») и точность («найти толь­ко требуемые документы») недостижимы и/или несовместимы.

В качестве среды хранения документальные информационные системы используют ин­фор­мационно-поисковые среды с индексами в виде инвертированных файлов, о строении которых мы поговорим в следующих лекциях.

Лекция 7.  Основы теории информационного поиска

Документальные информационные системы тесно связаны с процессами поиска слабо структурированной информации. Поэтому нам предстоит познакомиться с этими про­це­с­сами и понять, как они влияют на архитектуры документальных информационных сис­тем. Поскольку в подсистемы хранения и поиска в документальных информационных сис­темах — наиболее сложные и важные из подсистем, и реализованы они с применением документальных информационно-поисковых сис­тем, я буду использовать оба тер­мина (документальные информационные системы и информационно-поис­ко­вые сис­темы) как эквивалентные. Это не совсем строго, но позволяет сосредо­то­чить­ся на основных проблемах архитектуры документальных информационных сис­тем.

Несколько слов об истории

Поиск информации — задача, которую человечество решает уже многие столетия. По ме­ре роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совер­шенные поисковые средства и приемы, позволяющие найти необходимый документ.

Сначала эти средства совершенствовались в каталогах и информационных отделах круп­ных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала обес­печивался через модемное подключение, а затем по протоколу telnet через Ин­тер­нет. Стоимость работы с такими базами данных весьма велика. Например, одна мину­та работы с базой данных DIALOG (www. ) может стоить доллар (в зависимости от раздела базы), а вывод на эк­ран одного элемента найденной записи (из, например, 70) — 20 центов. Такая высокая сто­и­­мость поиска информации потребовала создания эффек­тив­ных приемов поиска.

Исследования по методам поиска информации публикуются в научных журналах. В на­шей стране — в журнале "Научная и техническая информация" (НТИ), в США — в Journal of American Society of Information Systems (JASIS).

Все найденные за много лет средства и приемы поиска информации реализованы в доку­мен­тальных поисковых системах, применяемых для поиска информации в Интернете, та­ких, как Yahoo!, Google, Апорт, Яндекс или Рамблер, которые мы для краткости будем на­зывать ИПС Интернета.

Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические и предметные. ИПС Интернета, при всем их внеш­нем разнообразии, также попадают в один из этих классов. Причина этого — общие законы, управляющие поиском информа­ции. Поэтому познакомимся сначала с тем, как устроены абстрактные ал­фавитные (словарные), сис­тематические и предметные ИПС. А для этого придется по­знакомиться еще и с не­ко­то­рыми терминами из теории информационного поиска.

Информационная потребность. Понятие пертинентного документа

Итак, автор(ы) создает(ют) документ(ы). А у нас (у вас) возникает информационная по­т­ребность — отыскать документ (или документы), содержащие какие-то необходимые нам сведения. Эта информационная потребность часто (как правило) даже не может быть точно вы­ра­же­на словами — говорят, что информационная потребность, вообще говоря, не­вербализуема. Информационная потребность выражается только в оценке про­смат­ри­ва­емых документов — подходит или не подходит. В теории информационного поиска вместо слова «подходит» ис­поль­зу­ют термин пертинентный документ, а вместо «не подходит» — неперти­нен­т­ный. Слово «пертинентный» происходит от английского “pertinent”, что значит «относящийся к делу, подходящий по сути».


Рис. 16. Информационная потребность существует только в мыслях пользователя

Субъективно понимаемая цель информационного поиска — найти все пертинентные и толь­ко пертинентные документы (мы хотим найти «только то, что хотим, и ничего боль­ше», такой поиск называется исчерпывающим). Для сколько-нибудь больших докумен­тальных информационных систем эта цель недостижима.

Действительно, для того, чтобы решить, является ли документ пертинентным, необхо­ди­мо просмотреть этот документ и сделать его оценку. Известно, что специалист в состо­я­нии просмотреть с оценкой за один сеанс просмотра не более 50—100 документов, что явно намного порядков меньше, чем то количество документов, которое содержится в любой из сов­ре­менных ИПС.

Информационный поиск и взаимодействие культур

Информационная потребность выражается только в оценке про­смат­ри­ва­емых докумен­тов. Но деятельность человека, связанная с выработкой оценок, всегда происходит в рам­ках той культуры (культур), с которыми связан человек. Для информационного поиска наличие таких «культурных» ограничений означает присутствие препятствий, связанных с различием культур автора и пользователя, ищущего документ. Наиболее ярко такое раз­личие проявляется в отличии языка текста документа от родного языка пользователя. Этим, однако, подобные различия не ограничиваются. Поскольку, например, профес­си­о­нальные сообщества зачастую порождают специфическую терминологию, то незнание такой терминологии может служить непреодолимым препятствием в оценке найденных документов.

Рассмотрение поиска в документальных информационно-поисковых системах как меж­куль­турной коммуникации является весьма плодотворным и помогает находить ответы на многие вопросы, связанные с поиском.

Информационный шум

Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска — редактор для Quake, а попался доку­мент с кулинарным рецептом, то он явно непертинентен, но принять решение о перти­нен­тности документа так просто удается далеко не всегда). Для того, чтобы было с чем срав­нивать, необходимо некоторое количество непертинентных документов. Эти доку­мен­ты называются — «шум» (или информационный шум). Слишком большой шум за­трудняет выделение перти­нен­т­ных документов, слишком малый — не дает уверенности в том, что найдено достаточное ко­личество пертинентных документов (раз мы видим толь­ко пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на гла­за, тоже не окажутся пертинентные). Практика показы­ва­ет, что когда количество не­пер­тинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя ком­фортно, не теряясь в море шума и считая, что количество най­денных документов — удовлетворительно.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6