«Инженерия резильентности» — что это за нововведение у айтишников эпохи COVID-19?

«Инженерия устойчивости» — что это такое новенькое у айтишников из-за COVID-19

Вирусные потрясения из-за кризиса СOVID-19 поставили компании от мала до велика на путь срочного принятия рискованных решений.

Признать, что вот-вот сейчас уже всё пойдёт не так, трудно для любой айтишной команды, даже самой подготовленной.

Мы столкнулись в этот кризисный период 2020-го года с потребностью в новых практиках разработки стратегии, которая обеспечивает долгосрочное устойчивое функционирование ИТ-инфраструктуры наших заказчиков. И здесь как нельзя кстати пришёлся опыт общения на конференциях, посвящённых кросс-дициплинарной области науки по обеспечению отказоустойчивости (наше основное направление деятельности — предоставить предприятию все условия работы без простоев).

В данной области появилась модная фраза «Инженерия резильентности». Предлагаем остановиться на этом явлении подробнее и коротко разобраться, что к чему.

«Инженерия устойчивости» — что это такое новенькое у айтишников из-за COVID-19

Что такое инженерия устойчивости («резильентности»)?

«Инженерия Резильентности» (Resilience Engineering, в переводе с английского «инженерия устойчивости») — это такое проектирование стратегии работы ИТ-оборудования предприятия, когда в долгосрочной перспективе она будет сохранять устойчивость к ИТ-инцидентам и безотказно выдерживать стрессовые воздействия на предприятие.

Сегодня инженерия устойчивости не рассматривается как функция.

Термин опирается на инженерные практики (опыт авторитетных специалистов с измеримым результатом). В основном они ориентированы на построение стратегий и основы для их выполнения.

«Инженерия устойчивости» — что это такое новенькое у айтишников из-за COVID-19

Для чего нужна «Инженерия Резильентности»?

Цель «Инженерной Резильентности» — сместить акцент с простого реагирования на сбои по факту происшествия к планомерной разработке превентивных долгосрочных стратегий предупреждения ИТ-инцидентов.

Процесс повышения устойчивости ИТ-инфраструктуры предприятия в значительной степени зависит от каждой уникальной системы. То, как вы реагируете на проблемы в этой системе, вероятно, будет непохожим на опыт работы с другими компаниями (даже если всё управляется по шаблону).

«Инженерия устойчивости» — что это такое новенькое у айтишников из-за COVID-19

Что должны уметь делать инженеры по обеспечению устойчивости?

Мы решили составить небольшой список практик, которые помогают нашим ИТ-специалистам получать результаты в исследованиях. Их цель — сформировать адаптивную под нестандартные аварии стратегию.

  1. Установка процедур, привычек и древовидных условий и решений

    Если что-то ломается, то биться до конца — наш единственный вариант. Операторам и дежурным инженерам необходимо решать проблемы систематическим и повторяемым образом. Они должны делать всё возможное, чтобы убрать эмоции и страх из уравнения.

    Это помогает вовремя отсортировывать и решать проблемы, а также гарантирует, что связанная с проблемой деятельность приведёт к значимым выводам при вскрытии и будущем сотрудничестве.

    Формирование привычек и условий принятия решений — часть этого процесса. ИТ-специалист обязуется расставить приоритеты, на чём сосредоточиться. В ходе исследования он должен уловить детали (потому что детали имеют решающее значение).

  2. Управление данными

    Разработка устойчивости должна полагаться на данные. Традиционные методы развиваются с упором на использование панелей мониторинга текущего состояния в реальном времени.

    Когда вы стремитесь к устойчивости (используя «Инженерию Резильентности»), вы думаете о влиянии прошлого на будущее, а не о настоящем.

    Единственный способ сделать всё точно и правильно — убедиться, что у вас есть все данные. То есть часть разработки устойчивости основывается на сборе и обеспечении наличия данных (если их изначально не было).

    У большинства организаций в цепочке доставки данные разрозненны и не оперируются.

    Инженерия устойчивости должна гарантировать, что телеметрия по всей цепочке доставки будет фиксироваться, коррелироваться и совместно использоваться. Причина в том, что все телодвижения на ранних этапах цепочки доставки напрямую влияют на ИТ-инциденты.

    Активность предприятия может быть источником ответов, может быть триггером для отката, или там может возникнуть ясность, необходимая для предотвращения подобных проблем в будущем. Без непрерывности между каждым этапом цепочки доставки легко пропустить коррелированные события, которые могут привести к более системным проблемам.

  3. Инжиниринг вне воспроизводимых ИТ-инцидентов

    Для большинства лучшая часть инженерии устойчивости — это взять то, что извлечено из предыдущих инцидентов, и найти способы автоматизации будущего их разрешения.

    Изучение данных и постоянство в привычках позволяет автоматизировать устранение известных проблем за счёт модульных инструментов.

    Часто контрольные журналы реагирования на инциденты можно читать как учебники для решения проблем определённого типа. Когда решение не имеет прямого отношения к коду и вероятность возникновения проблем в будущем неизбежна, возможность собрать интеллект для их решения спасает от того, что разбудит кого-то в полночь, и значительно сокращает влияние на клиентов.

 

«Инженерия устойчивости» — что это такое новенькое у айтишников из-за COVID-19

Чем мне могут быть полезны знания об «Инженерии Резильентности»?

Очевидно всем организациям нужна отказоустойчивость ИТ-системы. Но трудно разобраться, как это выполнить на практике.

Для внедрения инженерии устойчивости (Resilience Engineering) необходимы:

При комплексном проектировании устойчивости ИТ-отдела необходимо много документировать. Документы не должны храниться на задворках. Используйте их активно, оживите работу с ними. В конечном итоге понимание внутренних процессов приведёт к внедрению автоматизациии упростит предупреждение инцидентов.

 

Малый бизнес даёт маху и убытки терпит?

Он ещё выстоит!

 

Логотип компании «ZEL-Услуги» Компания ZEL-Услуги

Если вы относите свою компанию к растущим и развивающимся предприятиям и готовы перейти на новый уровень обеспечения устойчивости, то обратитесь к нашим экспертам за консультацией. Получите поддержку по любым техническим вопросам и задачам.

Читайте также

Может быть интересно