Особенности ЭВМ как объекта

эксплуатационного обслуживания

Эксплуатация любого объекта т. е. системы, машины, ЭВМ состоит из эксплуатационного использования и эксплуатационного обслуживания. Под эксплуатационным обслуживанием понимается совокупность операций, процедур и процессов, предназначенных для обеспечения работоспособности объекта.

Эксплуатируемый объект может находиться в работоспособном или неработоспособном состоянии. Работоспособным называется состояние объекта, при котором он способен выполнять заданные функции. И при этом сохраняет значения своих характеристик и параметров в пределах, установленных технической документацией. Неработоспособным называется состояние объекта, при котором он не в состоянии выполнить хотя бы одну из заданных функций.

В ЭВМ управление вычислительным процессом формализовано и осуществляется автоматически операционной системой, а процедуры работы операторов машины достаточно просты. Поэтому под эксплуатацией ЭВМ понимают в основном ее эксплуатационное обслуживание.

Рассмотрим основные особенности ЭВМ как объекта эксплуатационного обслуживания.

В общем случае можно выделить следующие виды обслуживания ЭВМ:

1. хранение;

2. установка;

3. наладку на месте эксплуатации;

4. ввод в эксплуатацию;

5. обслуживание при нормальной работе;

6. планово-профилактические работы;

7. устранение неисправностей (ремонт);

8. обслуживание программного обеспечения;

ЭВМ можно классифицировать по характеру обслуживания, который определяется их назначением и условиями эксплуатации. Вычислительная машина может быть восстанавливаемой или невосстанавливаемой, а также обслуживаемой или необслуживаемой.

ЭВМ считается восстанавливаемым объектом, если во время эксплуатации может производиться ремонт по устранению возникающих неисправностей. В противном случае машина является невосстанавливаемым объектом.

ЭВМ считается обслуживаемым объектом, если допускается периодическое проведение профилактических испытаний для выявления, замены или подрегулировки элементов и узлов. В противном случае ЭВМ является необслуживаемым объектом.

ЭВМ общего назначения представляют собой восстанавливаемые обслуживаемые объекты. К невосстанавливаемым объектам относятся, например, бортовые вычислительные машины ракет.

Решение проблемы обеспечения эксплуатационного обслуживания средств ВТ заключается в повышении надежности ЭВМ, в соответствующей организации их обслуживания, широкой подготовке специалистов по эксплуатационному обслуживанию, в придании ЭВМ специального свойства высокой степени обслуживаемости.

Степень обслуживаемости ЭВМ тем выше, чем меньше количество и ниже квалификация труда, затрачиваемого на эксплуатацию ЭВМ.

Повышение степени обслуживаемости ЭВМ достигается с помощью специальных аппаратурных и программных средств, автоматизирующих отдельные процессы обслуживания, в том числе средств автоматизации поиска неисправностей, автоматического контроля правильности работы ЭВМ, автоматического восстановления вычислительного процесса после сбоев, автоматизации профилактических испытаний, автоматизации накопления и обработки информации о нарушениях нормального процесса работы при ее эксплуатации, а также средств дистанционного контроля и диагностирования ЭВМ.

Основные эксплуатационные

характеристики ЭВМ

Пользователя в первую очередь интересуют параметры ЭВМ и особенности ее архитектуры, определяющие вычислительные возможности машины. К ним относятся производительность (скорость работы) процессора (число выполняемых операций в секунду), емкость памяти (число байт), состав и параметры периферийных устройств и т. д.

Важнейшими эксплуатационными характеристиками ЭВМ являются ее производительность П и общий коэффициент эффективности машины

Э=П/(СЭВМ+СЭКС),

представляющий собой отношение ее производительности к сумме стоимости самой машины СЭВМ и затрат на ее эксплуатацию за определенный период времени СЭКС.

Так как часто бывает трудно оценить затраты на эксплуатацию данной модели ЭВМ, то оценивают эффективность машины по упрощенной формуле:

Э=П/СЭВМ.

Оценка и сопоставление производительности различных ЭВМ представляют собой достаточно сложную проблему.

Интуитивно под производительностью ЭВМ понимают количество «вычислительной работы» или. другими словами, число задач, выполняемых машиной в единицу времени. Однако на производительность ЭВМ, оцениваемую по числу решенных в единицу времени задач, влияет слишком много факторов, в том числе тип задач, число тех или иных операций, выполняемых при решении задач, стиль программирования и другие особенности программ, логические возможности системы команд, структура процессора, характеристики и организация оперативной и внешней памяти, особенности операционной системы, состав и характеристики периферийных устройств и др.

Производительность ЭВМ общего назначения можно упрощенно оценивать по скорости выполнения некоторых «смесей» команд, формируемых путем анализа частоты исполнения разного вида команд при выполнении программ решения задач некоторого класса. На основе такого анализа отдельным видам команд присваиваются определенные весовые коэффициенты.

При использовании «смесей» команд производительность ЭВМ определяется по формуле

где RS и tS соответственно весовой коэффициент и продолжительность выполнений S-й команды; h число различных команд в «смеси».

Общие закономерности нарушений работоспособности различных объектов, закономерности процессов обеспечения и поддержания работоспособного состояния объектов изучает теория надежности.

Надежность – свойство изделия выполнять заданные функции, сохраняя во времени свои характеристики в установленных пределах при определенных режимах и условиях использования, технического обслуживания, режимах хранения и транспортировки.

При оценке и анализе надежности какого-либо объекта приходится иметь дело со случайными событиями и величинами, что заставляет использовать понятия и методы теории вероятностей.

Надежность вычислительной машины определяется безотказностью, достоверностью функционирования и характеристиками обслуживаемости (в первую очередь ремонтопригодностью), восстанавливаемостью информации после сбоев и проверкопригодностью.

Безотказность ЭВМ свойство машины сохранять работоспособность в течение определенного промежутка времени при условии удовлетворения заданных ограничений на условия эксплуатации. Безотказность ЭВМ характеризуется закономерностями возникновения отказов.

Отказ – событие, заключающееся в полной утрате машиной работоспособности из-за возникшей неисправности и приводящее к невыполнению или ошибочному выполнению различных задач.

Отказ ЭВМ — это такое нарушение ее работоспособности, для устранения которого требуются определенные действия обслуживающего персонала по ремонту, замене и регулировке неисправного элемента, узла или устройства.

Отказы делятся на внезапные и постепенные.

Внезапный отказ это практически мгновенное изменение какого-либо параметра (например, возрастание сопротивления цепи вследствие ее обрыва, электрический пробой диода и т. п.).

Постепенный отказэто происходящее во времени накопление количественных изменений некоторого параметра, достигнувшего значения, при котором машина оказывается в неработоспособном состоянии.

Интервалы между отказами являются случайными величинами с некоторым законом распределения.

Безотказность ЭВМ может быть оценена средним временем наработки машины на один отказ ().

Последствия отказов характеризуются случайными величинами продолжительности ремонта.

Ремонтопригодность это степень приспособленности машины к предупреждению, обнаружению и устранению отказов. Количество времени, затрачиваемого на ремонт для устранения отказа, является случайной величиной. Ремонтопригодность ЭВМ можно оценить средним значением времени восстановления работоспособности после отказа.

Т. к. работа ЭВМ заключается в выполнении преобразований информации, то надежность наряду с безотказностью определяется также достоверностью функционирования.

Достоверность функционирования ЭВМ—это свойство машины, определяющее безошибочность производимых машиной преобразований информации. Она характеризуется закономерностями появления ошибок из-за сбоев.

Сбой – событие, состоящее во временной утрате работоспособности ЭВМ.

Сбой вызывается кратковременной самоустраняющейся неисправностью, нарушающей нормальное функционирование машины. После сбоя машина длительное время может работать нормально.

Если при отказе для восстановления работоспособности машины или системы необходимо устранить неисправность в аппаратуре, то при сбое достаточно восстановить только достоверность информации.

Достоверность функционирования ЭВМ можно оценить средним временем наработки машины на один сбой.

Для более полной оценки достоверности функционирования введем в состав эксплуатационных характеристик| ЭВМ восстанавливаемость вычислительного процесса, оцениваемую средним временем восстановления вычислительного процесса после сбоя ( ).

Важной функцией обслуживания является проведение профилактических проверочных испытаний (профилактического контроля) для выявления элементов и узлов, параметры которых близки к предельно допустимым, и их замены или подрегулировки. Эффективность профилактических испытаний определяется отношением средних величин наработки на отказ при наличии профилактических испытаний ( ) и без них ( )

.

Для оценки профилактических испытаний используют также коэффициент их результативности, равный отношению числа отказов, выявленных при профилактических испытаниях (), к общему числу отказов, обнаруженных во время профилактических испытаний и при работе машины в период между профилактиками ():

Одной из важных эксплуатационных характеристик является проверкопригодность ЭВМ, которую можно оценить средней продолжительностью профилактических проверочных испытаний ( ).

Долговечность ЭВМ свойство машины при установленном для нее обслуживании сохранять указанные в технической документации характеристики в течение определенного времени хранения и эксплуатации.

Сохранность –свойство ЭВМ сохранять исправное состояние при эксплуатации в условиях, оговоренных технической документацией.

Эксплуатационные ресурсы это ресурсы, необходимые для нормальной эксплуатации машины:

– площадь помещений;

– потребляемая мощность;

– обслуживающий персонал;

– соблюдение некоторых требований к параметрам окружающей среды в помещениях ЭВМ (температура, вентиляция, пылезащищенность и др.).

Модели потоков отказов и сбоев

Под аналитической моделью некоторого процесса понимают совокупность математических зависимостей, описывающих его протекание с подробностью и точностью, соответствующей решаемой задаче исследования процесса. Поведение ЭВМ при эксплуатации зависит от ряда случайных факторов, таких как возникновение отказов, сбоев, восстановление работоспособности машины.

Рис.1. Зависимость интенсивности отказов от времени эксплуатации аппаратурных (1) и программных (2) средств

Безотказность аппаратуры зависит от времени ее функционирования (кривая 1 на рис.1). В начале периода функционирования на этапе обнаружения и исправления ошибок проектирования и производственных дефектов интенсивность отказов аппаратуры уменьшается со временем. Затем в течение большей части срока службы она остается примерно постоянной. Именно этот период эксплуатации представляет наибольший интерес. В конце срока службы интенсивность потока отказов значительно увеличивается вследствие износа аппаратуры.

Рассмотрим основные характеристики потока отказов, базирующиеся на законе распределения интервала времени между отказами.

Основной характеристикой является вероятность безотказной работы ЭВМ – вероятность того, что ЭВМ сохранит работоспособность до момента времени . Если функция распределения времени безотказной работы ЭВМ , то вероятность безотказной работы это функция, дополнительная к

причем , т. е. в момент начала эксплуатации с вероятностью 1 ЭВМ исправна, при завершении срока эксплуатации ЭВМ практически непригодна к использованию.

Функцию в литературе по надежности часто называют вероятностью отказа, а также функцией ненадежности или функцией риска и обозначают :

Используя функцию распределения , можно определить такой параметр, как среднее время безотказной работы:

,

где – плотность распределения случайной величины .

С помощью можно оценить также и среднее число элементов (устройств) ЭВМ , которые откажут за интервал времени :

,

где, – число исправных элементов (устройств) ЭВМ в начале ее эксплуатации.

Введем понятие интенсивности отказов как условную плотность распределения вероятностей времени до возникновения отказа при условии, что до момента времени отказа не было.

Таким образом, вероятность того, что первый отказ произойдет в интервале времени ,

Аналогично

откуда

(1)

или

.

Рассмотрим далее уравнение (1). Из него получаем

Постоянную С можно найти, воспользовавшись начальными условиями при , откуда.

Таким образом, вероятность безотказной работы связана с интенсивностью отказов выражением

,

или

Если интенсивность отказов , то можно показать, что

Другими словами, среднее число отказов в единицу времени.

Приведенные результаты еще раз подчеркивают важность экспоненциального распределения в теории эксплуатации ЭВМ, поскольку, как отмечалось выше, для основных режимов функционирования ЭВМ (исключая период первичной приработки и периоды физического износа уз лов и элементов) предположение практически выполняется.

ЭВМ состоит из большого числа отдельных устройств, таких как процессоры, каналы, внешние устройства и т. д. В свою очередь каждое из них (устройств) состоит из отдельных логических элементов. Их число в разных устройствах различно. Имеются различия в режимах работы отдельных устройств в целом. Это обусловливает неравномерность выхода из строя устройств ЭВМ: каждое устройство характеризуется своей интенсивностью отказов , где – число типов устройств ЭВМ.

Если время безотказной работы -го устройства ЭВМ есть случайная величина, имеющая экспоненциальное распределение с параметром , то вероятность его безотказной работы за время

(2)

Будем считать, что события – отказы устройств различного типа – независимы между собой, тогда вероятность безотказной работы ЭВМ

где – вероятность отказа устройства -го типа за время ; число устройств в составе ЭВМ.

На основании (2) получаем

Нетрудно заметить, что эта формула отражает одно из свойств пуассоновского потока: при наложении нескольких пуассоновских потоков снова имеем пуассоновский поток с интенсивностью, равной сумме интенсивностей отдельных потоков.

Рассмотрим, как можно вычислить вероятность безотказной работы, если известна функция распределения времени наработки на отказ отдельных устройств ЭВМ. Очевидно, что если ЭВМ содержит N устройств, то для нерезервированной ЭВМ выход одного устройства из строя означает отказ ЭВМ в целом. Другими словами, если через обозначить случайную реализацию времени наработки на отказ -го устройства, то случайная реализация времени наработки на отказ ЭВМ в целом

Так как только в том случае, если , то вероятность безотказной работы ЭВМ

.

Для упрощения можно считать, что надежность всех устройств ЭВМ одинакова; более того, так как время наработки на отказ одного устройства значительно больше времени наработки на отказ ЭВМ в целом, в первом приближении можно считать, что при малых . Тогда при достаточно больших N и одинаковых

Введем в рассмотрение случайную величину , где – нормирующая константа, выбранная таким образом, чтобы имело предельное распределение при

.

Если положить , то будем иметь

.

Таким образом, нормированная величина в качестве предельного имеет распределение Вейбулла.

Полученные выражения позволяют оценить вероятность безотказной работы ЭВМ в течение заданного интервала времени.

Выше были рассмотрены простейшие модели потока отказов ЭВМ в предположении, что интервалы между моментами появления отказов являются одинаково распределенными случайными величинами.

Модели потоков сбоев

Сбои так же как и устойчивые отказы, появляются в случайные моменты времени.

Подобно случайной величине – интервалу между моментами появления отказов – можно говорить о том, что интервал времени между сбоями есть случайная величина, задаваемая функцией распределения или плотностью распределения . В этом случае среднее время наработки на сбой будет определяться как математическое ожидание случайной величины , заданной функцией распределения .

Появление сбоев в процессе выполнения программ обусловливает увеличение общего времени решения, так как при обнаружении сбоя схемами контроля ЭВМ некоторое время тратится на восстановление правильности информации и повторение операции (части или всей программы в целом).

В целом простейшие модели потоков сбоев аналогичны моделям потоков отказов; различие состоит только в законах распределения случайной величины – интервала между моментами появления сбоя (в частности, различны математическое ожидание и дисперсия случайных величин – интервалов между отказами и сбоями).

Модели потоков восстановления

Большинство ЭВМ являются восстанавливаемыми системами. Время восстановления работоспособного состояния ЭВМ после наступления устойчивого отказа – величина случайная, характеризуемая функцией распределения

(2)

или плотностью распределения

По аналогии с интенсивностью отказов вводится интенсивность восстановления –условная плотность распределения вероятностей времени до восстановления ЭВМ при условии, что до момента времени работоспособность ЭВМ восстановлена не была.

В ряде случаев время восстановления (суммарное время работы обслуживающего персонала по поиску неисправности, замене отказавшего элемента и проверке работоспособности с помощью специальных тестов) можно считать случайной величиной, имеющей экспоненциальное распределение с постоянной интенсивностью , тогда

.

В этом случае среднее время восстановления

,

т. е. интенсивность восстановления – величина, обратная математическому ожиданию времени восстановления.

При появлении отказа в ЭВМ невозможна мгновенная замена отказавшего элемента, так как время поиска и замены ТЭЗ (не говоря уже о замене логического элемента в ТЭЗ) случайно или отлично от нуля.

В самом простейшем случае, когда численность обслуживающего персонала такова, что поиск неисправности и ее устранение начинаются практически сразу после ее возникновения, основной характеристикой восстановления ЭВМ является вероятность того, что работоспособность ЭВМ будет восстановлена за заданное время эта вероятность определяется по (2).

Случайная величина представляет собой, как отмечалось ранее, сумму двух случайных величин: времени поиска причины отказа и времени его устранения (замены ТЭЗ) с учетом времени проверки работоспособности ЭВМ после ремонта :

.

Функция плотности распределения может быть найдена по формуле композиции законов распределения (2.14):

,

где – плотности распределения времен поиска и устранения отказа.

Если предположить, что – случайные величины, имеющие экспоненциальные распределения с одним и тем же параметром , то

. (3)

Как следует из данной формулы, время восстановления имеет эрланговское распределение второго порядка. Данный факт имеет достаточно простую физическую интерпретацию: в силу сложности устройств ЭВМ вероятность восстановления ЭВМ за очень малое время практически равна нулю. Практически равна нулю и вероятность длительной работы по восстановлению, так как современные ЭВМ снабжаются развитой системой диагностики и укомплектованы ЗИП.

Функция распределения времени восстановления при , определенной (3), имеет вид

,

причем | – интенсивность восстановления; – среднее время восстановления.

Рассмотрим, каким образом может быть определен коэффициент готовности ЭВМ с учетом интенсивностей потока отказов и восстановлений. Сделаем предположение о том, что длительность интервалов работы ЭВМ между моментами появления отказов есть случайная величина, имеющая экспоненциальное распределение с параметром , а длительность восстановления – экспоненциально распределенная случайная величина с параметром . Будем считать, что ремонт (устранение отказа) начинается сразу после наступления отказа (это можно интерпретировать так: время поиска включено во время ремонта). После окончания ремонта ЭВМ сразу приступает к выполнению заданий.

Таким образом, ЭВМ может находиться в двух состояниях: работоспособном и неработоспособном, когда проводится восстановление. Обозначим эти состояния соответственно символами и .

Пусть вероятности нахождения ЭВМ в состояниях и обозначены как и . Если ЭВМ исправна в момент времени , то .

Для определения аналитической зависимости и от времени вычислим вероятность того, что ЭВМ будет находиться в состоянии в момент времени , где – малый интервал времени.

Если в момент времени ЭВМ находилась в состоянии , то она в течение времени останется в этом состоянии с вероятностью . Если в момент времени ЭВМ находилась в состоянии , то за интервал времени она перейдет в состояние с вероятностью .

Таким образом, можно записать

.

С учетом того, что при малых , , имеем

.

Преобразовав это выражение, получим

,

что при дает следующее дифференциальное уравнение Колмогорова:

. (4)

Так как для любого момента времени выполняется равенство

, (5)

уравнение (4) может быть переписано в виде

.

Это уравнение описывает процесс эксплуатации ЭВМ, на функционирование которой оказывают влияние потоки отказов и восстановлений. Его аналитическое решение имеет следующий вид:

,

где .

Нетрудно заметить, что при полученное выражение стремится к пределу, равному – стационарной (установившейся) вероятности нахождения ЭВМ в состоянии :

.

Используя (5), получаем стационарную вероятность

.

Стационарная вероятность есть не что иное, как доля времени работоспособного состояния машины или, другими словами, коэффициент готовности. Действительно,

Восстановление после сбоев

Время восстановления после сбоя складывается из времени идентификации ошибки как сбоя, времени фиксации сбоя (с целью накопления статистики о сбоях) и времени автоматического рестарта. Время восстановления после сбоя можно считать случайной величиной, задаваемой функцией распределения . Среднее время восстановления после сбоя в этом случае оценивается как математическое ожидание случайной величины , заданной функцией распределения .

Контроль в ЭВМ

Под контролем в ЭВМ понимаются процессы, обеспечивающие обнаружение ошибок в работе ЭВМ, вызванных отказом или сбоем аппаратуры, ошибкой оператора, ошибкой в программе или другими причинами.

По признаку применяемых средств контроль в ЭВМ разделяется на аппаратный, осуществляемый аппаратными средствами; программный, осуществляемый программными средствами; смешанный, осуществляемый совместно программными и аппаратными средствами.

По характеру контроль в ЭВМ подразделяется на оперативный и тестовый.

Оперативный контроль осуществляется в ходе решения эксплуатационных задач и позволяет в процессе их решения немедленно (задержка может не превышать время выполнения одного такта или нескольких тактов работы ЭВМ) обнаруживать ошибку в ее работе.

Тестовый контроль осуществляется в специально от1 веденные промежутки времени на основе решения специальных, тестовых задач.

В качестве основного способа оперативного аппаратного контроля применяется контроль по модулю.

Тестовый контроль дополняет аппаратный контроль, выявляя те отказы, которые не были обнаружены аппаратными средствами в процессе эксплуатации. Он осуществляется при помощи многочисленных тестовых последовательностей, запасаемых в накопителях ЭВМ вместе с правильными результатами, которые должны дать тесты. Расхождение между фактическими и заданными результатами тестов и является признаком отказа.

Методы тестирования СВТ. Сигнатурный анализ.

Известны следующие методы тестирования:

1. программная автодиагностика;

2. статическое тестирование;

3. логический анализ;

4. сигнатурный анализ;

5. метод сравнения с эталоном.

Из них четвертый получил наибольшее распространение.

1. Программная автодиагностика предполагает тестирование программируемых устройств на основе использования внутренних диагностических программ. Они бывают двух типов: самозапускаемые и вызываемые по требованию пользователей системой. Полезной для тестирования ряда устройств является программа прослеживания основного алгоритма, согласно которой испытуемая система проходит обычную последовательность состояний работы.

2. Метод статического тестирования микропроцессорной системы основан на том, что выполняемые ею операции можно рассматривать как совокупность последовательно изменяемых электрических состояний. Поэтому когда пользователя не интересует динамика процесса, то можно тестировать систему, искусственно устанавливая различные состояния. Для этого в систему включают вместо микропроцессора специальное устройство, имеющее набор тумблеров, с помощью которых можно задавать все возможные состояния. Выбирая определенные комбинации положений тумблеров, пользователь подает сигналы адресов и управления на определенный модуль системы (например, ОЗУ) и проверяет его работоспособность.

3. Логический анализ. Различают три вида приборов, с помощью которых осуществляют анализ: анализаторы логических состояний, анализаторы логических временных диаграмм, генераторы логических синхросигналов.

4. Учитывая широкое применение БИС, где при строго ограниченном количестве внешних соединений (несколько десятков) имеются тысячи и десятки тысяч элементов, построение системы тестов строгими логическими методами становится если не невозможной, то очень громоздкой и трудно выполнимой задачей. Поэтому возник большой интерес к вероятностным методам тестирования, где поставленная цель достигается с достаточно большой вероятностью. Сюда относятся методы компактного тестирования (сигнатурного анализа). Название сигнатурный анализ происходит от слова сигнатура имеющего много значений. Используемая при отыскании неисправностей в цифровых устройствах сигнатура—это число, состоящее из четырех знаков (цифр или букв) шестнадцатеричного кода и условно, но однозначно характеризующее определенный узел контролируемого устройства.

 

Схема тестирования по методу сигнатурного анализа

Генератор тестов ГТ генерирует некоторую последовательность кодовых комбинаций (тестов), которые по очереди подаются на вход тестируемой схемы С. К выходу тестируемой схемы подключается анализатор Л, определяющий сигнатуру выходной последовательности. Найденное значение сигнатуры сравнивается при помощи устройства сравнения М2 с записанным в запоминающем устройстве ЗУ значением, определенным заранее экспериментальным путем для заведомо исправной схемы данного типа. В случае несовпадения значений сигнатур устройство сравнения выдает сигнал Н с неисправности тестируемой схемы.

Процедура сигнатурного анализа внешне схожа с процедурой обнаружения неисправностей в аналоговых устройствах. На принципиальных схемах последних в характерных точках указаны эпюры напряжений сигналов и числовые значения напряжений. С ними сопоставляют осциллограммы, наблюдаемые на экране электронно-лучевого осциллографа, а также результаты измерения напряжений электронным вольтметром и в итоге сопоставления делают заключение о нормальной работе или неисправности испытуемого устройства.

Для программируемых цифровых устройств система контроля, основанная на сопоставлении осциллограмм, к сожалению, не может быть использована, поскольку все двоичные последовательности на экране осциллографа практически неразличимы. Тем более она не осуществима по отношению к устройствам, содержащим микропроцессоры, по той причине, что нет однозначного соответствия между характеристиками устройства и его конкретными узлами. Поэтому для подобных устройств сигнатурный анализ является способом контроля и диагностики, эффективность которого трудно переоценить.

Возможность применения сигнатурного анализа для контроля и диагностики цифрового устройства создается на стадии проектирования этого устройства. На этапе сигнатурного анализа нужно осуществить следующее:

– выделить ядро системы;

– разорвать цепь местной обратной связи;

– привести в определенное начальное состояние контролируемые схемы;

– располагать стабильными тест-последовательностями на интернвале, равном длительности временных ворот;

– иметь документацию, указывающую образцовые сигнатуры для конкретных точек и сечений схемы.

Возможность использования сигнатурного анализа необходимо предусматривать еще на стадии проектирования устройства, содержащего микропроцессор. Иначе говоря, сигнатурный анализ применим для проверки и диагностики тех устройств, которые заранее к нему подготовлены и в аппаратурном, и в программном плане.

5. Метод сравнения с эталоном. Метод заключается в том, что выходная последовательность тестируемого объекта О сравнивается с выходной последовательностью, получаемой от однотипного эталонного объекта Э.

 

Рис. . Схема тестирования по методу сравнения с эталоном

На вход эталонного объекта подаются те же входные сигналы от генератора тестов ГТ, что и на вход объекта тестирования.

Далее проводится сравнение выходных последовательностей при помощи устройства сравнения М2. В случае наличия эталона выходную последовательность тестируемого объекта О можно сравнивать непосредственно с выходной последовательностью, получаемой от эталонного объекта Э. Поскольку отпадает необходимость записывать или запоминать длинные последовательности, отпадает и необходимость сжатия выходных последовательностей тестируемой схемы.

Признаком неисправности тестируемого объекта является сигнал Н о несовпадении этих последовательностей.

В качестве генератора тестов используются генераторы псевдослучайных кодов. Применение псевдослучайных кодов обеспечивает повторяемость эксперимента, поскольку псевдослучайные последовательности каждый раз повторяются. Поэтому при тестировании одинаковых объектов на выходном анализаторе появляется всегда одна и та же сигнатура.

Резервирование. Виды резервирования

Под резервированием понимаются способы обеспечения надежности объекта за счет использования дополнительных средств и возможностей, избыточных по отношению к минимально необходимым для выполнения требуемых функций.

Резервирование – одно из основных конструктивных средств обеспечения заданного уровня надежности объекта при недостаточно надежных компонентах и элементах.

Цель резервирования обеспечить безотказность объекта в целом, т. е. сохранить его работоспособность при возникновении отказов одного или нескольких элементов, узлов или блоков.

По состоянию резервных элементов различают следующие разновидности резервирования:

1.  нагруженный резерв;

2.  облегченный резерв;

3.  ненагруженный резерв.

Под нагруженным резервом понимают резерв, содержащий один или несколько резервных элементов, находящихся в режиме основного элемента.

При облегченном резерве резервирующие элементы находятся в ждущем режиме, с нагрузкой существенно меньшей, чем у основного элемента.

Рассмотренные разновидности резерва с точки зрения подключения к основному элементу относятся к постоянному резервированию (с постоянно включенным резервом) и для включения в работу в качестве резервных элементов, при выходе из строя основного, не нуждаются в переключающих устройствах.

При ненагруженном резерве резервные элементы находятся в обесточенном состоянии. Для такой формы резервирования должны быть предусмотрены переключающие элементы, вступающие в работу при отказе основного элемента.

При этом подключение резервных элементов может быть осуществлено замещением, при котором функции основного элемента передаются заранее установленному резервному элементу.

Возможна и другая схема подключения, называемая скользящим резервированием, при котором группа основных элементов резервируется одним или несколькими резервными элементами, каждый из которых может заменить любой из отказавших основных элементов.

Путем введения дополнительных (резервных) элементов находят применение и другие виды резервирования:

1.  временное резервирование (используются резервы времени);

2.  информационное резервирование (используются резервы информации)

3.  функциональное резервирование (используется способность элементов выполнять дополнительные функции или способность объекта перераспределять функции между элементами);

4.  так называемое нагрузочное резервирование (используется способность элементов воспринимать дополнительные нагрузки сверх номинальных, а также способность объекта перераспределять между элементами нагрузку, выполнявшуюся вышедшими из строя узлами и блоками).

Расчет показателей надежности СВТ

Сначала определим интенсивности отказов устройств каждого типа , , где – число устройств, входящих в состав ЭВМ. Величины определяются по формуле

,

где – среднее время наработки на отказ устройства -го типа.

Значения берутся из эксплуатационной документации на соответствующие устройства ЭВМ или вычисляются по результатам наблюдений за работой машины.

Интенсивность отказов ЭВМ в целом (суммарная интенсивность отказов ЭВМ) вычисляется по формуле

где – коэффициент, определяющий, насколько интенсивно используется устройство -го типа при совместной работе с другими устройствами в составе ЭВМ (изменяется от 0 до 1).

При отсутствии устройства какого-либо типа принимается равным нулю.

Зная , вычисляем среднее время наработки на отказ машины:

.

Среднее время восстановления после отказа работоспособности ЭВМ вычисляется по формуле

где – среднее время восстановления -го устройства после отказа.

Интенсивность потока восстановлений

.

Аналитические модели надежности программ

Аналитические модели надежности дают возможность исследовать закономерности проявления ошибок в программах, а также прогнозировать надежность при разработке и эксплуатации. Модели надежности программ строятся на предположении, что проявление ошибки является случайным событием и поэтому имеет вероятностный характер. Такие модели предназначены для оценки показателей надежности программ и программных комплексов в процессе тестирования: числа ошибок, оставшихся не выявленными; времени, необходимого для выявления очередной ошибки в процессе эксплуатации программы; времени, необходимого для выявления всех ошибок с заданной вероятностью и т. д. Модели дают возможность принять обоснованное решение о времени прекращения отладочных работ.

При построении моделей используются следующие характеристики надежности программы.

Функция надежности , определяемая как вероятность того, что ошибки программы не проявятся на интервале времени от 0 до , т. е. время ее безотказной работы будет больше .

Функция ненадежности – вероятность того, что в течение времени произойдет отказ программы как результат проявления действия ошибки в программе. Таким образом,

.

Интенсивность отказов – условная плотность вероятности времени до возникновения отказа программы при условии, что до момента отказа не было. Можно показать, что

Средняя наработка на отказ – математическое ожидание временного интервала между последовательными отказами.

В настоящее время основными типами применяемых моделей надежности программ являются модели, основанные на предположении о дискретном изменении характеристик надежности программ в моменты устранения ошибок, и модели, основанные на экспоненциальном характере изменения числа ошибок в зависимости от времени тестирования и функционирования программы.

Информационные методы повышения надежности СВТ

Широко распространенным методом повышения надежности СВТ является обеспечение избыточности в составе СВТ, в частности информационной избыточности.

Применение корректирующих кодов является одним из наиболее удобных и гибких методов введения избыточности в ЭВМ. В некоторых условиях, например, при кратковременных сеансах работы, когда ресурсы надежности почти не расходуются, коррекция сбоев, вызываемых различного рода помехами, может иметь решающее значение для обеспечения нормального функционирования. Положительные качества корректирующих кодов следующие:

1. корректирующие коды обеспечивают исправление ошибок без перерывов в работе ЭВМ;

2. способ кодирования и применяемый код выбираются в зависимости от алгоритма функционирования данного вычислительного устройства, что дает возможность согласования корректирующей способности кода со статистическими характеристиками потока ошибок устройства и уменьшения избыточности, требуемой для коррекции ошибок;

3. использование корректирующих кодов позволяет учесть необходимость устранения влияния ошибок в устройстве последовательно на всех этапах проектирования, начиная с алгоритма функционирования.

Избыточность может быть временной и пространственной. Временная избыточность связана с увеличением времени решения задачи (в частном случае процесс решения задачи может быть осуществлен дважды) и вводится программным путем, являясь основой программного способа обнаружения и исправления ошибок.

Пространственная избыточность заключается в удлинении кодов чисел, в которые вводятся дополнительные (контрольные) разряда. Идея обнаружения и исправления ошибок с использованием избыточности состоит в следующем. Все множество выходных слов устройства разбивают на подмножество разрешенных кодовых слов , т. е. таких слов, которые могут появиться в результате правильного выполнения логических и арифметических операций, и подмножество запрещенных кодовых слов , т. е. таких слов, которые могут появиться только в результате ошибки.

Появившееся на выходе устройства слово подвергают анализу. Если оно относится к подмножеству разрешенных слов, то оно считается правильным и декодирующее устройство переводит его в соответствующее выходное слово . Если же слово оказывается элементом подмножества запрещенных слов, то это свидетельствует о наличии ошибки.

Для исправления обнаруженных ошибок запрещенные кодовые слова разбиваются на группы. При этом каждому разрешенному кодовому слову соответствует одна такая группа. При декодировании обнаруженное на выходе устройства запрещенное кодовое слово заменяется разрешенным словом, в группу которого оно входит. Тем самым ошибка исправляется. Однако работа декодирующего устройства усложняется. Процесс построения корректирующего кода состоит из следующих этапов:

1 этап – выявление наиболее вероятных ошибок для заданного способа функционирования устройства или наиболее опасных ошибок в условиях использования этого устройства;

2 этап – формирование избыточного множества выходных слов, разделение этого множества на подмножества разрешенных и запрещенных кодовых слов и образование декодировочных групп;

3 этап – разработка рационального способа декодирования выходных слов, позволяющего реализовать относительно несложными техническими средствами обнаружение и исправление ошибок;

4 этап – организация множества входных так, чтобы заданное преобразование, выполненное над любым словом этого множества, дало на выходе слово, принадлежащее к подмножеству разрешенных кодовых слов.

При построении ЭВМ, предназначенной для решения определенного класса задач, важным вопросом является рациональный выбор уровня, на котором следует применять корректирующий код.

Известно, что ЭВМ слагается из отдельных устройств, в каждом из которых информация претерпевает определенные изменения. В то же время составляющие части ЭВМ состоят из отдельных блоков (сумматоров, регистров и т. п.), которые в свою очередь набраны из простейших логических элементов (триггеров, схем И, ИЛИ, НЕ и т. п).

Корректирующие коды применяют на любом из этих уровней структуры ЭВМ. Однако результаты получают различные. В ряде случаев корректировать ошибки в работе логических схем значительно труднее, чем например, в работе сумматора в целом. Далее, если контроль правильности и исправления ошибок в работе отдельных блоков и устройств осуществить сложно, то в некоторых случаях прохождение всей задачи легко контролируется применением простейших принципов, например, путем повторения счета.

Введение структурной и информационной избыточности для повышения надежности ЭВМ не дает желаемых результатов, если при ее конструировании будут нерационально решены компоновка и конструктивное исполнение отдельных узлов и блоков.

Для обеспечения высокой надежности ЭВМ необходимо стремиться максимально упростить конструкцию, применять стандартные элементы, обеспечивать возможность проведения профилактики и контроля.