В одном из проектов мне приходится работать с одним весьма говёным датацентром. Не буду говорить каким. У него на эмблеме изображено дерево. Точно не знаю какое именно, но предполагаю, что это дуб. Как символ умственных способностей тех "специалистов", которые там работают.
Заказчик у них берет два интернет-канала от двух разных операторов, но при этом договора на телеком-услуги заключены с самим датацентром. Хрен знает почему так, я не вникал. А у заказчика есть своя собственная автономная система (AS), подняты BGP-сессии с обоими апстримами. Вроде как всё хорошо.
В один прекрасный момент хозяева датацентра попали под DDoS-атаку и заключили договор с конторой под странным названием "Сервис-Труба" на защиту от этих самых DDoS-атак. Своих клиентов об этом не предупредили. А поскольку руки-то растут из жопы, причем как у тех, так и у других, не смогли всё это нормально настроить. Поэтому под заботливую "защиту" Сервис-Трубы попала не только автономная система самого ЦОДа, но и все его клиенты тоже. Даже те, которые ни о чём таком не просили. Невзирая на то, что у них были свои собственные автономные системы и, как заявлялось, якобы полностью независимые аплинки.
Как итог, у обслуживаемого мной заказчика в "дубовом" ЦОДе перестали проходить BGP-анонсы его автономной системы в "большой интернет" то через один аплинк, то через другой. И в какой-то момент перестали проходить через оба. Причём, представители самих операторов-аплинков наличие проблемы отрицали до последнего, так как сами-то они BGP-сессии от заказчика прекрасно видели. Только потом перенаправляли их в "Сервис-Трубу", где они благополучно и терялись. А у заказчика вроде каналы-то и работают, но "автономка" при этом недоступна от слова "совсем".
А самое главное, что хрен продиагностируешь. В ЦОДе работают дубы, они в принципе не понимают что не так и почему заказчик бесится. Саппортеры из телекомов-аплинков не могут напрямую ответить "да мудаки из ЦОДа там на***вертили", поэтому начинают политкорректно блеять про какого-то "вышестоящего провайдера", юлить, изворачиваться, и тоже молчат как партизаны. Я-то в конце концов разобрался в чём дело. Это стоило мне ночной поездки на другой конец Нерезиновска "по тревоге", пары часов тщательного шерстения разных looking glass-ов и кучи телефонных звонков во всевозможные службы техподдержки.
Сервисы заказчика лежали недолго, всего каких-то часов пять... Сейчас они работают, но спустя трое суток после возникновения инцидента изначальная проблема так и не решена.
Мораль? А хрен знает. Все заинтересованные лица проинформированы, моя работа как технаря на этом закончена. Дальше начинаются юридические и организационные вопросы, пусть сами между собой разбираются. Но я теперь думаю вот о чём.
Как бы "подвесить" всю эту дичь на мониторинг? Ну хоть бы всё на тот же Zabbix. Как можно "отстрелить", что твои BGP-анонсы перестали проходить "в мир" через тот или иной аплинк? Особенно учитывая то, что не все Looking Glass-ы показывают "неоптимальные" маршруты, а до каких-то из них "/24"-ая ASка и в принципе может не доходить.
Так-то я могу попросить отдавать мне BGP Full View у какого-нибудь из дружественных мне телекомов, только что мне потом с ним делать?
P.S. И чтобы два раза не вставать. Кто-нибудь что-нибудь знает об электронных механических замках (замках-невидимках), которые можно врезать в стальную дверь для квартиры?