Добавить новость
smi24.net
TelecomBloger.ru
Май
2025
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Отчет Uptime Institute о сбоях в ЦОД за 2025 год: тенденции, причины, рекомендации

0

Дата-центры — фундамент цифровой экономики. На них завязаны все аспекты современного мира: от государственных услуг и банкоматов до блокчейн-инфраструктуры, стриминга и нейросетей / искусственного интеллекта (ИИ). Бесперебойная работа ЦОД уже перестала восприниматься только в контексте комфорта конечных пользователей. Теперь это основа политической, финансовой и технологической стабильности. Поэтому ежегодные отчеты об авариях в дата-центрах представляют особую ценность для все более широкого круга заинтересованных сторон – от профессионального сообщества (проектировщики и операторы серверных ферм) до сотрудников госструктур.

Наиболее авторитетной среди международных организаций, публикующих такие доклады, считается Uptime Institute. Она специализируется на стандартах, сертификации и исследованиях в области надежности ЦОД. В мае 2025 года организация опубликовала седьмой «Ежегодный анализ аварий» (Annual Outage Analysis). Документ охватывает статистику, тренды, причины и последствия перебоев в работе IT-инфраструктуры, случившихся за последние годы. Отчет составлялся на основе анализа опросов операторов ЦОД и публично зафиксированных инцидентов, информация о которых доступна в СМИ, открытых базах данных и социальных сетях.

Несмотря на общий тренд к снижению количества сбоев в работе серверных ферм, авторы документа отмечают тревожные сигналы: на смену старым проблемам приходят новые, еще более системные и трудноустранимые.

Динамика сбоев

Частота инцидентов снижается, однако скорость улучшения статистики падает. Более того, эксперты ссылаются на возможную неполноту информации из-за ограниченного доступа к данным и отсутствия единых стандартов.

Позитивный тренд

С 2020 года наблюдается устойчивое снижение частоты сбоев. Если в 2020 году 78% операторов ЦОД, принявших участие в тематическом опросе, сообщили минимум об одном значимом инциденте за предыдущие три года, то к 2024 году их стало 53%. Это свидетельствует о том, что инвестиции в устойчивость, стандартизацию, резервирование инфраструктуры и мониторинг дают результат.

Также рекордно снизилась доля аварий в ЦОД, классифицируемых как серьёзные или критические: в 2024 году их было всего 9% от общего числа. Это самый низкий уровень с момента начала сбора релевантных данных в 2016 году.

Замедление прогресса

Однако скорость улучшения статистики заметно снижается из года в год:

ГодДоля операторов ЦОД, столкнувшихся с одним или несколькими инцидентами (%)
202078
202169
202260
202355
202453

Из таблицы выше видно, что разница между 2023 и 2024 годами составляет всего 2 процентных пункта. Это может свидетельствовать о двух вещах:

достижении «потолка» эффективности актуальных подходов к обеспечению надежности инфраструктуры ЦОД;
необходимости системных реформ для дальнейшего прогресса.

Погрешности

Аналитики из Uptime Institute подчеркивают, что данные о сбоях в ЦОД зачастую являются неполными. Многие операторы серверных ферм не публикуют в открытом доступе сведения о случившихся инцидентах, особенно если они не связаны с нарушением соглашений об уровне обслуживания (Service Level Agreement; SLA) и/или финансовыми потерями. Если информация и появляется в открытом доступе, то касается она преимущественно резонансных инцидентов, и нередко трактуется искажённо. Также отсутствует единая классификация уровней тяжести аварий. Поэтому цифры Uptime Institute отражают скорее тенденции, чем абсолютные значения.

Структура первопричин даунтаймов: кто виноват, и что ломается?

Несмотря на усилия по автоматизации, стандартизации и модернизации инфраструктуры ЦОД, количество серьезных инцидентов не снижается. Изъяны в инфраструктуре электроснабжения, человеческий фактор и уязвимости сетевого оборудования остаются тремя ключевыми источниками рисков, приводя к сбоям даже в дата-центрах мировых IT-лидеров.

Силовое оборудование — Ахиллесова пята

Сбои в системе электропитания остаются самой распространенной причиной значимых инцидентов. По данным за 2024 год, 54% всех серьезных аварий в ЦОД оказались вызваны проблемами с электропитанием причем:

  • 42% из них были связаны с отказом системы ИБП;
  • 36% — ошибками в работе переключателей на резервное электроснабжение (transfer switch);
  • 28% — отказами генераторов;
  • 15% — сбоями управляющих контроллеров и системной логики;
  • 11% — отказами блоков распределения электропитания.

Как показывает практика, даже в случае многомиллиардных корпораций силовые системы остаются источником рисков для дата-центров. В марте 2024 года региональная инфраструктура облачной платформы Google Cloud, обслуживающая клиентов в восточной части США, оказалась недоступна. Сбой длился 6 часов. Причиной стали ошибки в работе ИБП. Это произошло, несмотря на заявленный уровень отказоустойчивости Uptime Institute Tier III в соответствующем ЦОД.

Человеческий фактор: давняя проблема в новых реалиях

Рост плотности мощности компонентов IT-системы внутри монтажных стоек, повышение скорости развертывания вычислительных платформ и нехватка квалифицированных кадров обернулись интенсификацией инцидентов, вызванных человеческими ошибками. Свежее исследование показало, что:

  • 85% всех инцидентов, вызванных человеческим фактором, связаны с неправильными действиями персонала;
  • 58% — неспособностью или нежеланием сотрудников следовать инструкциям;
  • 45% — ошибочным или неадекватным характером процедур и/или инструкций;
  • 24% — ошибками на стадии внедрения оборудования;
  • 18% — нехваткой персонала в рамках конкретной смены;
  • 16% — отсутствием регулярного планово-предупредительного ремонта.

Особенно тревожен рост случаев невыполнения процедур. Показатель вырос на 10 процентных пунктов относительно результата предыдущего года. Учащение таких инцидентов, несмотря на наличие необходимой документации, указывает на системные проблемы в культуре управления.

Серверы и сетевое оборудование

На долю сбоев в работе серверов и сетевой инфраструктуры пришлось 23% всех значимых аварий в 2024 году. Основные причины:

  • конфигурационные ошибки и неправильные изменения — 50–62%;
  • сбои у внешних партнеров (сервис-провайдеров) — 34%;
  • аппаратные отказы — 31%;
  • ошибки при развертывании обновлений — 26%;
  • перегрузки сетевой инфраструктуры — 13%;
  • кибератаки (включая DDoS и ransomware) — 17%.

Яркий пример — сбой в работе платформы Microsoft 365 в марте 2024 года, вызванный ошибкой при обновлении системного кода. Инцидент привел к недоступности сервисов по всему миру. Проблемы наблюдались в течение четырех часов. Это подчеркивает, что даже облачные гиганты с масштабной инфраструктурой и современными механизмами автоматизации остаются уязвимыми.

Новые и внешние риски: климат, межгосударственные отношения, облако

Владельцы и клиенты ЦОД сталкиваются с новой волной рисков, источники которых лежат за пределами серверных стоек и помещений со вспомогательным оборудованием. От экстремальных погодных явлений и геополитической нестабильности до перебоев у облачных провайдеров и неясных границ ответственности в распределённых архитектурах — все это повышает уязвимость дата-центров.

Погода и геополитика

В отчетном периоде эксперты Uptime Institute фиксировали рост числа инцидентов, связанных с:

  • жарой и тепловыми волнами, включая сбои в работе систем кондиционирования ЦОД;
  • отключением электроэнергии из-за пожаров, сильного ветра и осадков;
  • нестабильностью сетей (особенно в Европе и Азии);
  • перебоями в поставках компонентов (особенно для систем охлаждения и ИБП);
  • сложностями с перемещением оборудования через границы из-за санкций и экспортного контроля.

Размытие ответственности

Около двух третей всех инцидентов за 9 лет, информация о которых стала достоянием широкой общественности,— результат сбоев у внешних провайдеров разного рода услуг: облачных, телекоммуникационных, SaaS, колокейшн. Доля аварий, связанных с инфраструктурой владельцев гипермасштабных ЦОД, снижается благодаря инвестированию в региональные кластеры и механизмы автоматизированного перехода на резервные системы при сбое. Однако в случае небольших сервис-провайдеров рост аварийности продолжается. Результат – усиление рисков, связанных со:

  • сложностями при определении зоны ответственности;
  • невозможностью повлиять на стратегию и процедуры внешнего поставщика.

Усложнение инфраструктуры из-за внедрения ИИ

Плотность размещения серверов резко увеличивается, создавая давление на системы охлаждения и электропитания. Новые конфигурации требуют пересмотра архитектуры ЦОД, а также стратегии управления мощностями. Быстрое внедрение ИИ увеличивает вероятность не только аппаратных, но и программных сбоев.

Противоречия

В докладе отмечается, что автоматизация не исключает конфигурационные ошибки, а высокий уровень Tier не гарантирует устойчивости ПО и технологических процессов. Все более широкое распространение культуры «раннего запуска с последующей разработкой процедур» (launch-first-operate-later) приводит к сбоям уже в первые месяцы эксплуатации новых ЦОД.

Последствия: финансовый и репутационный ущерб

54% респондентов сообщили, что их последний значимый сбой обошёлся более чем в $100 000. Еще 20% оценили убытки свыше $1 млн. Факторы ущерба:

  • нарушение SLA и контрактных обязательств;
  • штрафы от регуляторов (особенно в финансовом и госсекторе);
  • репутационные риски (особенно в случае публичной огласки);
  • отток клиентов и падение доверия;
  • расходы на восстановление и аудит;
  • потеря данных или нарушение последовательности операций.

В Uptime Institute отмечают, что влияние сбоев становится кумулятивным — каждый инцидент снижает общую устойчивость и увеличивает уязвимость к следующим.

Что делать, чтобы избежать даунтайма или минимизировать негативные последствия аварии?

Эксперты дают следующие рекомендации по снижению рисков и повышению устойчивости ЦОД:

  • Совершенствование процедур. Необходимо обновлять и строго соблюдать правила эксплуатации оборудования. Требуются регулярные проверки и актуализация процессов. Профилактическое обслуживание для раннего обнаружения возможных отказов – первостепенная задача.
  • Повышение уровня подготовки кадров. Человеческие ошибки можно предотвратить за счет повышения квалификации и поддержки персонала. Требуется регулярное обучение сотрудников, усиление команд поддержки и консультирования при сложных ситуациях.
  • Применение программных решений для повышения отказоустойчивости. Использование программных инструментов наряду с механизмами физического резервирования инфраструктуры обеспечивает большую устойчивость.
  • Адаптация инфраструктуры к растущим нагрузкам и рискам. Необходимо планировать модернизацию с учётом новых вызовов. В частности, требуется развертывать силовое оборудование и системы охлаждения с запасом. Использование модульных решений позволяет быстро адаптироваться к новым реалиям с минимальной нагрузкой на бюджет.

Заключение

Анализ тенденций 2025 года ясно показывает, что дата-центры становятся устойчивее, но риски не исчезают — они трансформируются. Силовая инфраструктура, подготовка и сохранение кадров, а также несовершенство архитектуры ЦОД в целом остаются основными слабыми местами.

Для достижения максимальной устойчивости важно предельно внимательно подходить к управлению рисками, реализуя продуманные меры защиты и профилактики. Только комплексная стратегия, охватывающая технологические, организационные и кадровые аспекты, позволит обеспечить стабильность и надежность инфраструктуры ЦОД в долгосрочной перспективе.

The post Отчет Uptime Institute о сбоях в ЦОД за 2025 год: тенденции, причины, рекомендации appeared first on Новости рынка ЦОД, обзор инженерных решений Дата-Центров.








Говорим о ВИЧ — в эфире, на улицах, в сети

Marins Park Hotel Нижний Новгород – партнёр фестиваля «ПАРИ ФЕСТ 2025»

«Прошли два удара»: Гребенщиков рассказал свою версию драки с Пирцхалавой

Трамвай «Славянка» получил первые тяговые подстанции


OpenAI launches GPT-5, its most powerful AI yet—will it be enough to stay ahead in today’s ruthless AI race? 

Trump’s threatened 40% tariff on ‘transshipped’ goods tries to target China and its manufacturing strength

The 5 biggest global business rivalries to watch, and how their outcomes will shape the future

£39m United star shouldn't be starting vs Arsenal, was gifting possession to Everton


«Деловые Линии» запустили более 400 новых направлений экспресс-доставки

В центре Курска пьяный водитель Mercedes врезался в пять автомобилей

Где в России водители используют европротокол чаще всего

Bluetooth-сканер штрих-кодов SAOTRON P04 на базе CMOS-матрицы


Обзор на мобильную версию A Game About Digging A Hole

Находи идеальные места для персонажей-фигурок в «Is This Seat Taken?»

Раскрой потенциал Мистера Террифика из DC Worlds Collide с этим гайдом

DeepMind CEO makes big brain claims, saying AGI could be here within 'five to 10 years' and cause humanity to experience widespread change that's '10 times bigger than the Industrial Revolution, and maybe 10 times faster'



«REC. Гран-При Авторадио»: гонка на выносливость снова в Москве

AI-скоринг от Cware Labs — революция в анализе Web3-проектов

Форум-фестиваль «Москва 2030» подготовил насыщенную программу на 9 и 10 августа

Кубанский казачий центр «Баско» не остался в стороне от людской беды и принял участие в ликвидации последствий ЧС в Туапсинском районе Краснодарского края.


Лукашенко заявил, что Путин не кровожадный

Велоспорт для всех: начни вместе с ENERGY

Фестиваль Signal перенесли в Москву

Высокий результат. Школьники из РФ завоевали 8 медалей на олимпиаде по ИИ


Ленгоры. Моя история

На западе Москвы 9 августа закроют движение автомобилей

Чемпионы мира по боксу проведут мастер-классы в рамках проекта "Лето в Москве"

Телеграм-канал Губернатора Тульской области попал в ТОП-30 по цитируемости в СМИ


Теннисистка Потапова вышла во второй раунд турнира в Цинциннати

Хачанов проиграл Шелтону в Торонто

Американец Изнер призвал вернуть флаг российским теннисистам

Осака достигла полуфинала на теннисном турнире в Монреале


Перегреть или заморозить? Шесть важных ошибок при работе с дрожжевым тестом

Путин и Си Цзиньпин положительно оценили высокий уровень доверия между КНР и РФ

На западе Москвы 9 августа закроют движение автомобилей

Количество автотуристов в Нижегородской области увеличилось на 24,2% в 2025 году


Музыкальные новости

Александра Розенбаума экстренно госпитализировали

Композитор Чертищев: бренд Sigma Boy не будет продавать хумус и кровяную колбасу

Имущество Чубайса оформили приговором // Обвиняемые в хищении имущества экс-главы «Роснано» получили сроки

Вадим Самойлов рассказал, что завершает работу над новым альбомом


Кубанский казачий центр «Баско» не остался в стороне от людской беды и принял участие в ликвидации последствий ЧС в Туапсинском районе Краснодарского края.

В Алтайском крае не будут проводить проверку на предмет чрезмерного роста тарифов на ЖКУ

Форум-фестиваль «Москва 2030» подготовил насыщенную программу на 9 и 10 августа

Высокоскоростная магистраль Москва - Петербург вошла в проект схемы метро Москвы


Трамп ударными темпами укрепляет БРИКС

Деменко одобрил переход Миранчука в «Динамо»

Чемпионат по самбо среди военнослужащих Росгвардии прошёл в Грозном

Высокоскоростная магистраль Москва - Петербург вошла в проект схемы метро Москвы


НПС завершил проходку подземного перехода под МЦД-3

Собянин объявил о новых правилах для пользователей сервисов аренды автомобилей

В Москве авария затруднила движение транспорта на СВХ

РЭО установил «Зеленый фургон» на ТимФесте в Москве


Трамп выступил перед журналистами в Белом доме

Президент ОАЭ и Путин обсудили перспективы стратегического партнёрства

Президент ОАЭ на русском языке рассказал о прошедшей встрече с Путиным

Президент ОАЭ поделился деталями встречи с Путиным




В библиотеке №183 им. Данте Алигьери с сентября начнут работу новые группы программы «Московское долголетие»

Пластический хирург Софья Абдулаева: для чего нужна искусственная кожа и чем она может помочь

Выявлены продукты, повышающие вероятность возникновения диабета

Собянин: В Коммунарке открылся новый филиал поликлиники «Троицкая»


Зеленский признал, что Киев не сможет вернуть территории военным путем

В Киеве пришли в ярость после слов Зеленского об СВО

Трамп опроверг, что ставит условием встречи с Путиным контакты руководства России с Зеленским

Холодный душ для Киева: Трамп заявил, что Путину для встречи с ним не обязательно встречаться с Зеленским


Чемпионат по самбо среди военнослужащих Росгвардии прошёл в Грозном

«Забег 2030» в «Лужниках» при поддержке ENERGY

«REC. Гран-При Авторадио»: гонка на выносливость снова в Москве

Родители с детьми стали главными гостями экстрим-фестиваля в Москве


Лукашенко заявил, что Путин стремится к миру и готов к переговорам

Путин и Лукашенко поговорили по телефону о переговорах между Россией и США

Лукашенко: Белоруссия не договаривается с США за спиной у России

Лукашенко рассказал об отношениях с Китаем


Собянин: Около 200 социальных объектов будет построено в Москве в ближайшие годы

Собянин открыл электродепо «Столбово» Троицкой линии метро

Собянин объявил о новых правилах для пользователей сервисов аренды автомобилей

Собянин: В Коммунарке открылся новый филиал поликлиники «Троицкая»


РЭО установил «Зеленый фургон» на ТимФесте в Москве

В пятницу на большей части Подмосковья ожидается II класс пожарной опасности

В течение суток в России ликвидировали 47 природных пожаров

AP: в США более четырёх тысяч человек обязаны покинуть свои дома из-за пожара


Чемпионы мира по боксу проведут мастер-классы в рамках проекта "Лето в Москве"

Телеканал «Союз» показал 10 выпусков проекта «Татар-информ» «Кофе с батюшкой»

На западе Москвы 9 августа закроют движение автомобилей

Телеграм-канал Губернатора Тульской области попал в ТОП-30 по цитируемости в СМИ


Чёрный день календаря. 8 августа: Архангельская трагедия. Как ошибка пилота погубила рейс Як-40

Коми, Камчатку, Архангельскую, Иркутскую, Калужскую, Костромскую, Курскую, Свердловскую и Оренбургскую области эксперты отнесли к регионам, где на осенних выборах "протестный потенциал выше среднего", говорится в докладе...

Защищённый планшет промышленного класса Saotron RT-W11

Льготные ипотеки на Дальнем Востоке активно получают участники СВО и сотрудники ОПК


Семь поездов задерживаются на Кубани из-за падения обломков БПЛА между станциями Величковка и Ангелинская, там пропало напряжение контактной сети

Компания «Гранд Сервис Экспресс» информирует об изменениях в курсировании некоторых поездов «Таврия» с осени 2025 года

Поезда в Крым меняют маршруты и график

В Калининском районе Краснодарского края фрагменты дронов повредили контактную сеть на железной дороге между станциями Величковка и Ангелинская, сообщил оперштаб региона


Ленгоры. Моя история

Эксперт высказался о лишении лицензии компании "Молдовагаз"

Международный фестиваль «Вотэтно» пройдёт с 22 по 24 августа недалеко от села Ая

Пластический хирург Софья Абдулаева: для чего нужна искусственная кожа и чем она может помочь














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *