«Одноклассники» рассказали о причинах сбоя и трехдневного простоя сайта

Причиной сбоя в работе соцсети «Одноклассники», который привел к простою сайта длительностью около трех суток, стал испорченный конфигурационный файл. Сбой произошел, когда этот файл был выложен через централизованную систему управления серверами на все сервера соцсети. Это привело к необратимым изменениям и необходимости перезапускать все сервера вручную.

Оцените:

Как сообщил руководитель сервиса Илья Широков изданию Roem.ru, ошибка в файле привела к росту использования ресурсов серверов за короткое время до 100%. После этого сотрудники компании вынуждены были перезапустить сервера, вручную переконфигурировать большинство из них, восстановить работу систем хранения данных и вручную запустить сервисы проекта. Cообщается, что соцсеть обслуживают около 5 тыс. Linux-серверов. Поэтому восстановление работоспособности социальной сети происходило так долго.


«Одноклассники» пообещали продлить все оплаченные  услуги, а также предложить пользователям дополнительные бонусы.


Интересно, что Николай Дуров, технический директор соцсети «ВКонтакте» и старший брат ее создателя Павла Дурова, выразил мнение о нецелесообразности использования системы управления базами данных Microsoft SQL в крупных проектах масштаба «Одноклассников» (похожие мнения высказывались и в комментариях).



В ответ на вопрос издания Roem.ru о возможной связи сбоя со спецификой MS SQL Илья Широков заявил: «Наш MS SQL вообще не был затронут сбоем. Проблемы коснулись только Linux-серверов».


«Одноклассники» были недоступны почти трое суток с четверга, 4 апреля. Часто возникали предположения о DDoS-атаке сайта. Однако пресс-секретарь сервиса Мария Лапук опровергла эти догадки — она заявила, что произошел сбой оборудования.


Оцените:

Комментарии Facebook

Комментарии ВКонтакте