Известно, что увеличение частоты сбоев является предвестником отказа. Поэтому большинство ИС и все базовое ПО (ОС, СУБД) ведут журналы, в которых протоколируются сбойные ситуации. В обязанности администратора входит регулярный (в соответствии с регламентом) просмотр этих журналов, планирование и выполнение действий, направленных на нейтрализацию причин сбоев и предотвращение отказов.
Пример
В СУБД создали новую базу. После этого в журнале событий стали появляться сообщения о невозможности завершения резервного копирования другой, уже существовавшей базы. Новая база копируется без проблем. В чем же дело? Для копирования обеих баз задан один и тот же раздел жесткого диска, которого как раз хватило для одной базы, но который оказался мал для двух баз. Планируемое действие: увеличить объем дисковой памяти (или перенаправление резервного копирования в другой раздел или и т. д.).
Отказы дублированных (резервированных) компонентов ИС могут рассматриваться как сбои ИС. Однако такие сбои могут приводить к длительному падению эффективности функционирования ИС и, возможно, к временному (на период восстановления отказавшего компонента) снижению надежности ИС. Пример: отказ диска в массиве RAID5 на время замены и восстановления содержимого отказавшего диска (около 1 часа) понижает как надежность массива, так и производительность дисковой подсистемы.
Доступность
Доступность измеряется долей времени, в течение которой ИС работоспособна, и тесно связана с надежностью ИС.
Время неработоспособности ИС — это время ее восстановления после сбоя/отказа. Если время восстановления после сбоя, как правило, определяется при разработке ИС и обычно невелико (от долей секунды до нескольких минут), то время восстановления после отказа зависит от наличия плана восстановления, выполнения мероприятий по подготовке к восстановлению после отказа, и обученного и тренированного персонала — администраторов ИС.
Эффективность
Эффективность функционирования ИС заключается в удержании определенных параметров ИС в требуемых пределах. Один из основных таких параметров — время реакции (отклика) на внешние воздействия (изменения данных, действия пользователей и др.). Время реакции ИС должно быть разумно малым; для этого следует выполнять настройки использования всех видов памяти, используемой ИС (перемещения часто используемых данных в более быструю память, - например, в специальную буферную область ОЗУ; удаление (архивирование) неиспользуемых данных; дефрагментацию дискового пространства (включая дефрагментацию свободного пространства на диске и пр.), настройки использования индексов; настройки пропускных способностей сетей (сетевых карт; топологии сети; активного оборудования сети и др.).
Все эти работы требуют измерений соответствующих параметров (необходимые измерительные средства, как правило, присутствуют в составе ОС и СУБД/ИПС) и должны выполняться по определенным регламентам.
Лекция 5. Резервное копирование
Основной проблемой восстановления работоспособности ИС после отказа является восстановление хранимых данных. Отказ многих аппаратных компонентов ИС (процессора, памяти, контроллеров, внешних устройств, сетей передачи данных и пр.), как правило, нарушает целостность хранимых данных. Поэтому подготовка к восстановлению данных является важнейшим элементом планов работ по восстановлению работоспособности ИС. Такая подготовка включает в себя 3 компонента:
- Изготовление резервных копий данных (резервное копирование) Хранение резервных копий Тренировки персонала по восстановлению данных
Начнем с последнего. Тренировки должны быть регулярными, обеспечивающими автоматизацию навыков администраторов по восстановлению данных. Дело в том, что восстановление данных может занимать часы и требовать от администратора действий, выполняемых в строго определенной последовательности. Нарушение такой последовательности может приводить к повторению процедуры восстановления с ее начала — снова вызывая простой ИС.
Хранение резервных копий зависит от вида носителей. Например, магнитные носители следует хранить в размагниченном металлическом сейфе (шкафу), а оптические диски можно хранить в любом непрозрачном контейнере.
На любых носителях обычно изготавливаются не менее 2 резервных копий (как правило, 3), одна из которых хранится в помещении, в котором предстоит восстановление данных, а другая — в другом здании (желательно не ближе 10 — 15 км) — на случай стихийного бедствия или теракта.
При использовании трех копий еще одна копия хранится в том же здании, где будет происходить восстановление данных, но в помещении, отдаленном от того помещения, где эксплуатируется ИС.
Резервное копирование следует осуществлять настолько часто, насколько допустима потеря части данных после их восстановления из последней резервной копии; например, если резервное копирование осуществляется 1 раз в сутки, то средний потерянный объем изменений данных — это изменения, сделанные за 12 часов работы ИС, а в худшем варианте — за все 24 часа. Резервное копирование может быть длительным процессом. Например, изготовление полной резервной копии базы данных объемом 1 Гигабайт может занимать от 20 мин до 1 часа. А бывает ИС объемом в терабайты! Во время изготовления резервной копии нельзя вносить изменения в данные, так что в это время функциональность ИС снижена. Поэтому для резервного копирования следует принимать все возможные меры, снижающие время изготовления копии:
- Уменьшать объем копируемых данных Повышать производительность оборудования, на котором изготавливаются копии Использовать программное обеспечение, которое позволяет изменять данные, не затрагивающие целостность резервной копии (например, уже полностью скопированные).
Последняя мера сильно зависит от структуры хранимых данных и среды хранения, а первые две носят универсальный характер.
Средства резервного копирования
Рассмотрим вкратце современное оборудование, применяемое для резервного копирования.
Таблица 1
Оборудование | Носитель данных | ||||||||
Тип | Стоимость оборудования | Интерфейс | Скорость передачи данных | Совместимость оборудования разных производителей | Тип | Емкость единичного носителя | Стоимость единичного носителя | Надежность | Время хранения |
тыс. долл. | Мбайт/сек | Гбайт | долл. | лет | |||||
Цифровой магнитофон | 1—10 | SCSI | 30–400 | плохо | микрокассета | 100–400 | >100 | В | >50 |
Магнитооптический привод | 0,5–1 | SCSIATA | 10 | отлично | магнитооптический диск | 0,3–2 | 20 | В | >100 |
DVD/R/RW | 0,1–0,8 | SCSIATA | 10 | средне | DVD/R | 4–25 | >4 | В | неизв. |
CD-R/RW массовый | 0,05–0,4 | SCSIATA | 10 | хорошо | CD-R/RW | 0,7 | 0,3 | С | 2 |
CD-R/RW промышленный | 2–10 | SCSIATA | 10–160 | средне | CD-R/RW в специальных кассетах | 10–20 | >10 | В | 5–10 |
НЖМД | 0,07–3 | SCSIATA | 10–320 | отлично | жесткий диск | 100–300 | 50–100 | С | >30 |
Выбор оборудования/носителей осуществляется исходя из баланса емкости, скорости записи, надежности и срока хранения и стоимости.
Схемы организации резервного копирования
Рассмотрим возможность уменьшения объема копируемых данных. Для этого используются 2 схемы организации копирования: дифференциальная и инкрементная. Для обеих схем процесс изготовления резервных копий планируется по определенным календарным циклам. Например, при ежесуточном копировании цикл может составлять 5 — 7 дней, а при ежечасном — 6 — 12 часов.
В начале цикла выполняется полная копия данных. Эта копия делается дважды или большее число раз — в зависимости от принятого числа резервных носителей. Нельзя сделать единственную копию, а затем реплики с нее, — потому, что именно эта единственная копия может оказаться поврежденной. Напротив, рекомендуется сравнить все изготовленные копии для выявления и отбраковки дефектных.
На втором шаге цикла и для дифференциальной, и для инкрементной схем копирования выполняется копия только той части данных, которая была изменена за интервал времени, прошедший с момента изготовления полной копии.
Объем таких данных в разы (а иногда в тысячи раз) меньше, чем объем полной копии (см. Рис. 15).
На третьем и последующих шагах циклов резервного копирования действия для дифференциальной и инкрементной схем копирования различаются. Для дифференциальной схемы по-прежнему изготавливается копия изменений данных относительно их состояния в момент полного копирования. Объем такой частичной (дифференциальной) копии постепенно растет. Для инкрементной схемы копируются только изменения данных, произошедшие за последний цикл копирования. Объем данных инкрементной копии остается небольшим.
![]() |
Рис. 15. Объемы копирования (гипотетический случай)
при пятидневном цикле изготовления резервных копий.
По оси X — периоды копирования, по оси Y — объемы (в мегабайтах)
В результате полная копия выполняется долго, но сравнительно редко. Дифференциальная копия выполняется с нарастающим временем копирования, но использует немного носителей, поскольку после успешного завершения очередного копирования прежняя дифференциальная копия становится формально ненужной (в реальности предпоследнюю дифференциальную копию всегда сохраняют — на тот случай, если последняя копия окажется поврежденной.). Инкрементная копия всегда выполняется быстро, но использует большое количество носителей.
Восстановление данных при использовании дифференциальной схемы резервного копирования происходит в 2 этапа: сначала восстанавливаются данные из последней полной копии, а затем — изменения данных из дифференциальной копии. При использовании инкрементной схемы процесс восстановления более длителен: вслед за восстановлением из полной копии идет последовательное восстановление из всех инкрементных копий.
В процессе любого восстановления данных любая из копий может оказаться дефектной. Поэтому во избежание полной потери данных обычно хранятся носители с копиями 2 — 3 предыдущих поколений (скажем, при пятидневном цикле резервного копирования хранятся три последние полные копии и до трех инкрементных копий текущего цикла). Конечно, получить ИС в состоянии двухнедельной давности — не подарок, но полная потеря данных — это еще хуже.
Восстановление из резервной копии может требовать антивирусного сканирования — в том случае, когда сохранялись данные, в которых могли переноситься вирусы (например, документы Word или базы электронной почты), поскольку на момент изготовления копии вирус мог быть еще не обнаружен.
Лекция 6. Типология информационных систем
Информационные системы можно классифицировать по различным признакам. Чаще всего используют 2 признака: структуру хранимой в информационной системе информации и время отклика.
Классификация информационных систем по времени отклика
По времени отклика информационные системы делятся на ИС реального времени и пакетные. Информационные системы реального времени имеют время отклика, достаточное для гарантированного решения задач, для которых они предназначены, в требуемые сроки (например, время отклика ГИП не превышает времени комфортного ожидания пользователя — 0,2 ... 5 сек). Время отклика пакетных ИС варьируется в широких пределах и может составлять часы или даже сутки.
Классификация информационных систем по структуре хранимой информации
По структуре хранимой информации информационные системы делятся на объектографические и документальные.
Объектографические информационные системы
Информация, хранимая и обрабатываемая в объектографических информационных системах, имеет строго определенную структуру. Каждая запись объектографической ИС состоит из определенных элементов — полей, содержимое которых строго регламентировано (число, строка и др.). Записи объектографической ИС соответствуют объектам реального мира и искусственным сущностям — отсюда и название объектографическая. Примеры объектографических систем — все системы поддержки управления предприятиями (ERP — Enterprise Resource Planning): бухгалтерия, кадры, склад, торговля, снабжение и поставки — объектографические.
Поиск в объектографических информационных системах осуществляется по сочетаниям локальных критериев, каждый из которых представляет собой булеву функцию от значения того или иного поля (например, Накопленная Зарплата > 20000). Типовые задачи поиска в ОИС рассматриваются в процессе разработки ОИС и, как правило, должны находить все требуемые и только требуемые записи. Эффективность поиска обеспечивается использованием индексов. В качестве сред хранения информации ОИС используют т. н. реляционные СУБД, а в качестве языка запросов, как правило, SQL.
Документальные информационные системы
Документальные информационные системы хранят слабо структурированную информацию. Запись документальной информационной системы обычно соответствует привычному текстовому документу, хотя может содержать и некоторое количество полей типа тех, которые используются в объектографической ИС, например, дату создания документа или его тип (статья, закон, стихи...). Такие поля соответствуют формальным атрибутам документа. Примеры документальных информационных систем: библиотечный каталог с аннотациями; полнотекстовая ИС типа Yandex или Google.
Поиск в документальных информационных системах так же, как и в объектографических ИС, осуществляется по сочетаниям локальных критериев, однако эти критерии применяются не к документу, как к целому, а к некоторой функции документа, называемой поисковым образом документа (ПОД). Документальные информационные системы, как правило, отличаются непредсказуемым разнообразием поисковых задач, для которых, как мы увидим в дальнейшем, полнота («найти все документы») и точность («найти только требуемые документы») недостижимы и/или несовместимы.
В качестве среды хранения документальные информационные системы используют информационно-поисковые среды с индексами в виде инвертированных файлов, о строении которых мы поговорим в следующих лекциях.
Лекция 7. Основы теории информационного поиска
Документальные информационные системы тесно связаны с процессами поиска слабо структурированной информации. Поэтому нам предстоит познакомиться с этими процессами и понять, как они влияют на архитектуры документальных информационных систем. Поскольку в подсистемы хранения и поиска в документальных информационных системах — наиболее сложные и важные из подсистем, и реализованы они с применением документальных информационно-поисковых систем, я буду использовать оба термина (документальные информационные системы и информационно-поисковые системы) как эквивалентные. Это не совсем строго, но позволяет сосредоточиться на основных проблемах архитектуры документальных информационных систем.
Несколько слов об истории
Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.
Сначала эти средства совершенствовались в каталогах и информационных отделах крупных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала обеспечивался через модемное подключение, а затем по протоколу telnet через Интернет. Стоимость работы с такими базами данных весьма велика. Например, одна минута работы с базой данных DIALOG (www. ) может стоить доллар (в зависимости от раздела базы), а вывод на экран одного элемента найденной записи (из, например, 70) — 20 центов. Такая высокая стоимость поиска информации потребовала создания эффективных приемов поиска.
Исследования по методам поиска информации публикуются в научных журналах. В нашей стране — в журнале "Научная и техническая информация" (НТИ), в США — в Journal of American Society of Information Systems (JASIS).
Все найденные за много лет средства и приемы поиска информации реализованы в документальных поисковых системах, применяемых для поиска информации в Интернете, таких, как Yahoo!, Google, Апорт, Яндекс или Рамблер, которые мы для краткости будем называть ИПС Интернета.
Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические и предметные. ИПС Интернета, при всем их внешнем разнообразии, также попадают в один из этих классов. Причина этого — общие законы, управляющие поиском информации. Поэтому познакомимся сначала с тем, как устроены абстрактные алфавитные (словарные), систематические и предметные ИПС. А для этого придется познакомиться еще и с некоторыми терминами из теории информационного поиска.
Информационная потребность. Понятие пертинентного документа
Итак, автор(ы) создает(ют) документ(ы). А у нас (у вас) возникает информационная потребность — отыскать документ (или документы), содержащие какие-то необходимые нам сведения. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами — говорят, что информационная потребность, вообще говоря, невербализуема. Информационная потребность выражается только в оценке просматриваемых документов — подходит или не подходит. В теории информационного поиска вместо слова «подходит» используют термин пертинентный документ, а вместо «не подходит» — непертинентный. Слово «пертинентный» происходит от английского “pertinent”, что значит «относящийся к делу, подходящий по сути».

Рис. 16. Информационная потребность существует только в мыслях пользователя
Субъективно понимаемая цель информационного поиска — найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше», такой поиск называется исчерпывающим). Для сколько-нибудь больших документальных информационных систем эта цель недостижима.
Действительно, для того, чтобы решить, является ли документ пертинентным, необходимо просмотреть этот документ и сделать его оценку. Известно, что специалист в состоянии просмотреть с оценкой за один сеанс просмотра не более 50—100 документов, что явно намного порядков меньше, чем то количество документов, которое содержится в любой из современных ИПС.
Информационный поиск и взаимодействие культур
Информационная потребность выражается только в оценке просматриваемых документов. Но деятельность человека, связанная с выработкой оценок, всегда происходит в рамках той культуры (культур), с которыми связан человек. Для информационного поиска наличие таких «культурных» ограничений означает присутствие препятствий, связанных с различием культур автора и пользователя, ищущего документ. Наиболее ярко такое различие проявляется в отличии языка текста документа от родного языка пользователя. Этим, однако, подобные различия не ограничиваются. Поскольку, например, профессиональные сообщества зачастую порождают специфическую терминологию, то незнание такой терминологии может служить непреодолимым препятствием в оценке найденных документов.
Рассмотрение поиска в документальных информационно-поисковых системах как межкультурной коммуникации является весьма плодотворным и помогает находить ответы на многие вопросы, связанные с поиском.
Информационный шум
Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска — редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются — «шум» (или информационный шум). Слишком большой шум затрудняет выделение пертинентных документов, слишком малый — не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов — удовлетворительно.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |




