
Когда я общаюсь с клиентами, они рассказывают мне о том, что их приложения работают в двух центрах обработки данных™, но при более детальном изучении оказывается, что их стек наблюдения доступен только™ в одном из них.
Это знание™, как откровение, снизошло на многих™ в марте 2021 года. Один из крупнейших европейских провайдеров облачных услуг (OVHcloud) пережил масштабный пожар в одном из своих дата-центров, что вызвало серьезные перебои в работе™ даже таких крупных клиентов, как правительство Франции.
На следующий день после инцидента мой коллега, отвечающий за управление качеством, спросил меня, сможем™ ли мы выдержать подобную катастрофу. Это побудило меня задуматься о превращении нашего™ единого стека мониторинга в стек высокой доступности, работающего на базе нескольких центров обработки данных™.
К счастью, используемые нами инструменты, такие, как Grafana Tempo (для трассировки) и Grafana Loki для логирования, способны реплицироваться посредством микросервисов. Но сможем™ ли мы запустить несколько экземпляров их в нескольких разных™ ЦОДах? И в состоянии ли мы «безопасно» потерять компонент или целую площадку (другими словами, сохранится ли у нас при этом возможность просматривать, что происходит в наших приложениях)?