Настольная книга эксплуататора. Всё, что вы хотели знать о повседневной жизни датацентров, но боялись спросить

Tekst
1
Recenzje
Przeczytaj fragment
Oznacz jako przeczytane
Czcionka:Mniejsze АаWiększe Aa

Еще одной важной причиной посетить завод и посмотреть свое новое оборудование является заблаговременная проверка качества маркировки, компоновочных решений и монтажа, особенно если речь идет об уникальных продуктах, таких как ГРЩ (главный распределительный щит), собранный под конкретного заказчика. Когда инженер эксплуатации, зная, что ему предстоит ежегодная протяжка болтовых соединений шин, прямо на заводе берет гаечный ключ и пытается их подтянуть, он сразу может оценить, и какой ему понадобится инструмент, и можно ли вообще дотянуться до нужного болта. Кстати, совершенно не исключаются варианты, когда представитель заказчика еще на заводе наткнется на недостаточный момент затяжки.

Другой повод для визита находится где-то посередине между упомянутыми DCC и FAT. Когда оборудование изготавливается впервые, например по ТЗ заказчика, то имеет смысл приехать на так называемый pre-FAT, чтобы убедиться, что мелочи, которые невозможно было сразу разглядеть в документации на новое изделие, не помешают качественно эксплуатировать оборудование. Для примера приведу случай, когда изготовитель установил контрольный прибор на высоте около 2,5 м, и для снятия показаний была нужна лесенка. Или рама вент-установки, на которой крепились фильтры, имела недостаточную жесткость и при работе вентиляторов прогибалась бы под напором воздуха. Такие мелочи рано или поздно были бы обнаружены, но устранить их, пока оборудование еще на заводе, – гораздо быстрее, дешевле, да и правильнее.

Подводя итог, если есть возможность съездить на производство – нужно ехать. В любом случае такой визит приведет к появлению новых идей, что в нашем инженерном мире, наверное, самое главное. Если же такой возможности нет – ее надо организовать…



3. IA (Installation Acceptance) – приемка монтажа

После того как оборудование доехало на площадку и было установлено в помещении, включать его еще рано. Сначала нужно убедиться, что оно смонтировано именно в проектном месте и такая установка соответствует отраслевым нормативам (тут неоценимую помощь окажет специалист по техническому надзору, лучше всех разбирающийся в тонкостях СНиПов и подобной документации) и требованиям производителя. Внимательный осмотр позволит найти даже мелкие повреждения, убедиться в полной комплектности поставки и уже на своей территории еще раз удостовериться, что нет никаких проблем с дальнейшей эксплуатацией, например что все органы управления, контроля и регулировок легко доступны.

В одной из команд, с которыми мне приходилось работать, был специалист-слаботочник, до того дотошно контролировавший шкафы управления, что вручную проверял каждый, да-да, каждый проводок – хорошо ли он зажат в разъеме. Зато именно такой подход дает бóльшую уверенность, что в ближайшее время в этих местах соединений не проявится дребезг контактов.

Подробной программы таких испытаний обычно нет ни у производителя, ни у монтажников. Исключением, наверное, являются большие производители дизель-генераторных установок, скрупулезности проверочных документов которых можно только поражаться. Для другого оборудования программу придется составлять агенту пусконаладки. Важно не забыть заблаговременно согласовать ее с монтажниками, чтобы они знали, к чему готовиться, и заранее устраняли досадные мелкие недочеты, чтобы сберечь время в проекте.

Приемка монтажа – самый «дружелюбный» тест в том смысле, что на этом этапе очень многое может быть временно прощено поставщику (некомплектность, отсутствие маркировки и т. п.) и оборудование может быть допущено к следующим шагам тестирования. Однако тщательный подход к проведению ПНР обязывает зафиксировать все найденные неисправности и по каждой из них проставить время исправления.




4. CT (Component Test) – компонентное тестирование (индивидуальные испытания)

После успешной приемки монтажа на оборудование можно подавать напряжение и приступать к поочередной проверке всех его составляющих. Это достаточно долгий и утомительный тест, но с точки зрения конечного результата его ценность трудно преувеличить. Так, например, приходилось видеть стену из двух десятков вентиляторов, вполне себе работоспособную, в которой из-за неисправности модуля управления один вентилятор всегда вращался с постоянной скоростью, остальные свою скорость меняли. Найти такой недочет можно или случайно, или путем последовательной проверки каждого вентилятора одного за другим. Понятно, что рано или поздно подобный неисправный компонент все равно бы нашелся, но предположу, что времени на его поиски было бы потрачено намного больше.

Программу таких испытаний написать трудно. Иногда для стандартных продуктов производитель готовит соответствующие чек-листы, но для специально спроектированного оборудования это, скорее всего, будет задачей агента пусконаладки. И тут будет необходимо привлечь весь опыт и всю экспертизу эксплуатации, чтобы не только учесть все уже известные типы неисправностей, но и предположить, что еще может произойти с конкретным компонентом в конкретном типе оборудования.

В идеальном случае на этом же этапе необходимо убедиться в сопряжении оборудования с системой мониторинга датацентра, чтобы уже на следующем тесте наблюдать изменение режимов работы, находясь не только непосредственно перед пультом управления, но и удаленно, с места дежурного.

Я бы не рекомендовал переходить к следующему этапу тестирования, если на CT остаются недочеты. Практически невозможно провести полное функциональное тестирование всей системы, если какой-то ее компонент все еще не готов или неисправен. Тем не менее могут быть объективные причины, по которым проект задерживать нельзя, поэтому особое внимание здесь стоит обратить на тщательное заполнение листа доработок и последующий регулярный, вплоть до ежедневного, контроль за их устранением.

Часто для стандартного оборудования компонентное тестирование производится сразу же после проверки монтажа, в тот же день. Это значит, что обе программы лучше подготовить одновременно. Однако здравый смысл должен преобладать. Слишком долгие испытания приводят к повышенной утомляемости, большему количеству ошибок и стремлению поскорее закончить весь процесс. А это противоречит самой главной цели пусконаладки.




5. SAT (Site Acceptance Test) – приемо-сдаточные испытания

В большинстве контрактов именно этим шагом отмечается окончание всех работ – когда подрядчик сдает, а заказчик принимает собранную и проверенную систему. Для этого подрядчик может заранее подготовить форму соответствующего акта и даже сделать ее приложением к контракту. Большие и уважаемые компании-поставщики вообще разрабатывают стандартную международную форму актов и программы испытаний, оспорить которую совсем не легко. Тут нужно хорошо понимать, устраивает ли вас стандартная форма, или вы хотите каких-то дополнительных проверок, и если да, то как именно договориться с подрядчиком об изменении процедуры проверки.

Для локальных или более мелких поставщиков разработку программы тестирования можно поручить агенту ПНР. Принципиальная разница в том, что при создании проекта часть оборудования берется с рынка и проект как бы подстраивается под спецификацию конкретных моделей. Тогда очевидно, что и процедура проверки решения должна определяться производителем. Другая же часть, наоборот, изготавливается под конкретное техническое задание, а значит, и тестирование должно исходить из задачи получения проектных значений.

Собственно, рассказать про это тестирование что-то новое трудно, потому что на некоторых объектах вообще нет никакого другого тестирования, кроме этого, но зато в нем разбираются, наверное, все. Но после того как акт о приемке подписан, вы, скорее всего, не сможете требовать от поставщика никаких дополнительных услуг или работ. Поэтому подписывать акт и прощаться нужно только при условии, что вы удовлетворены результатом и дальше справитесь самостоятельно. Какое бы давление на вас ни оказывали руководители проекта с обеих сторон.




6. ISAT[16] (Integrated Site Acceptance Test) – интегральный тест

И вот теперь наш датацентр собран из отдельных частей, каждая из них протестирована и теоретически, если включить все оборудование, датацентр должен заработать. Как говорится, должен, да не обязан.

Важно понимать, что по окончании SAT заказчик фактически вступил в права на датацентр и все оставшиеся проблемы являются его персональной головной болью. Если в этот момент будет найдена какая-то существенная неисправность, и неважно, кто в ней виноват – проектировщик, поставщик или подрядчик, – заказчику придется решать проблему самостоятельно. Поэтому именно ему нужно проверить работу всего датацентра перед открытием.

 

Давайте взглянем на процесс с инженерной точки зрения. В теории отказов оборудования наиболее часто используется U-образная кривая, отражающая зависимость количества отказов системы от срока ее эксплуатации. Видно, что в начальный период оборудование демонстрирует свои «детские болезни» и проявляются неисправности, не выявленные в заводских условиях производителем, а также те, которые связаны с ошибками проектирования и монтажа. После устранения таких неисправностей количество ошибок системы стабилизируется и остается на каком-то одном уровне. Существенный рост наблюдается ближе к окончанию срока полезного использования оборудования.



С точки зрения введения в эксплуатацию датацентра понятно, что если он передан заказчику в самом начале кривой, в точке 0, то все «детские болезни» оборудования заказчик почувствует на себе. Разумеется, допускать такого развития событий не следует. Именно для сокращения длины нисходящего отрезка и необходима полноценная, тщательно выполненная пусконаладка. Конечно, какая-то часть дефектов все равно проявится позже, но их количество будет несоизмеримо меньше, чем сразу после первого включения. К тому же в ходе ПНР формируются и оттачиваются планы действий в аварийных ситуациях, даже если заранее предсказать, какой именно компонент откажет, невозможно.

Неопытным заказчикам я настоятельно рекомендую обратиться к профессиональным агентам ПНР хотя бы для того, чтобы им составили программу проверки, если на полноценное приглашение агента денег не хватает.

Главное, на что стоит обратить внимание во время ISAT, – это то, как датацентр функционирует при своей максимальной загрузке. Например, стойки потребляют 100 % отведенного им электричества, вентиляция работает на всю катушку, а за стенами датацентра жара в 35 градусов и влажность в 80 %. При таких условиях нужно провести переключения между всеми режимами, убедившись, что характеристики датацентра не ухудшаются ни в одном из их. В каждом режиме необходимо проработать достаточное время (как минимум несколько часов) и за это время снять все температурные характеристики электрических соединений.

Кстати, если подобные испытания проводятся зимой, то мы сталкиваемся с интересной задачей: для подогрева воздуха нам понадобятся дополнительные тепловые пушки, разогревающие воздух, которые в свою очередь будут потреблять электрическую энергию. В такой ситуации нам, с одной стороны, необходимо убедиться, что эта дополнительная мощность для пушек у нас есть, а с другой – решить практическую проблему отключения защиты этих самых пушек до достижения целевой температуры.

Еще пример: в одном проекте мы перебрасывали 100 % мощности на резервный источник питания, соединенный по шинопроводу. Через короткое время удлинение шинопровода от нагрева составило 8 см (!), даже несмотря на то, что стояло несколько компенсаторов. Естественно, геометрическая фигура, в которую был завернут шинопровод, немного исказилась, а если бы места прохода через стены были заштукатурены, ремонт пришлось бы переделывать. Понятно, что при снятии нагрузки шинопровод охладился и все вернулось на исходную позицию. Как вы думаете, сколько таких циклов выдержат болтовые соединения узлов шинопровода?

При проверке механических систем важно убедиться в отсутствии резонансных явлений путем плавного повышения нагрузки и внимательного наблюдения за шумами и вибрациями при различных скоростях работы.

На этом этапе особенно важно проверить и тщательно задокументировать процедуру холодного старта датацентра. Она может пригодиться в том (маловероятном) случае, когда работа датацентра все-таки будет приостановлена, например из-за крупной аварии, а затем в короткое время вернуть его к полной мощности. Скорее всего, простое включение рубильника тут не поможет: разные системы должны последовательно принимать несколько состояний в строгой очередности. Чтобы любой дежурный смог воспроизвести эту последовательность в ночь с субботы на воскресенье, процесс нужно подробно описать, а дежурному дать возможность повторить его руками. И именно сейчас, на ISAT, для этого самое время.

Очевидно, что программу интегрального теста писать, кроме агента пусконаладки, некому. А вот проводить все тестирование должна именно команда эксплуатации под пристальным наблюдением агента ПНР. Однако могут возникнуть ситуации, при которых потребуется участие представителей монтажников или производителей. Поэтому еще на момент тендера нужно запросить стоимость такого участия, честно предупредив, что, возможно, делать ничего не понадобится, но нужно просто быть рядом. В коммерческом предложении заказчик может ориентировочно оценить время участия (например, 3 дня), а подрядчик может указать стоимость человеко-часа таких работ. Этого будет достаточно.

Если во время теста в сторону подрядчиков будут выдвигаться какие-то предложения по доработке, нужно четко понимать, что система уже принята и все последующие хотелки – это предмет нового контракта. А значит, к этому этапу проекта желательно подходить с некоторым остатком денег в бюджете, чтобы не откладывать нужные пожелания из-за отсутствия финансирования.




7. HO (handover) – передача в эксплуатацию

Когда все активности по тестированию площадки позади, расслабляться все же не стоит и нужно довести дело до конца. В этот момент подрядчики уже вовсю заняты где-то на другой площадке, проектная команда тоже ушла на другой проект и команду эксплуатации наконец оставили один на один с объектом. На этом этапе необходимо сосредоточиться на сборе и каталогизации всей имеющейся документации и, пока коллеги все еще далеко не убежали, выбивании из них задолженностей. Обычно перечисленное ложится на плечи только команды эксплуатации и может быть сравнительно сложной задачей. Чтобы облегчить ситуацию, можно внести передачу всей исполнительной документации отдельным пунктом в договор с каждым из подрядчиков и привязать к этому пункту последний платеж за работы. В противном случае получение исполнительной может растянуться на годы да и закончиться ничем.

Внутри компании рекомендуется привязать проектную премию для всего коллектива именно к моменту подписания акта ввода в эксплуатацию, чтобы и проектная команда была заинтересована в максимально быстром завершении всех мелких формальностей.

В случае когда объект строится без помощи генподрядчика, момент окончания проекта часто бывает размыт. Формально существует акт о вводе в эксплуатацию от Ростехнадзора, но он может не иметь никакой связи с фактическим окончанием работ на площадке. Хорошим выходом может быть внутренний акт передачи построенного объекта от проектного отдела в команду эксплуатации с подписями обеих сторон. Такой акт окажет неоценимую услугу бухгалтерии, так как формально зафиксирует окончание капитальных затрат, дату постановки на учет и начало амортизации активов.

Итак, в этом заключительном этапе пусконаладки мы должны убедиться в том, что:

• передана последняя актуальная версия проектной документации;

• передана вся исполнительная документация;

• как часть ИД собрана вся документация от поставщиков оборудования;

• структурирована и передана вся документация по ПНР;

• приобретен комплект ЗИП для оборудования минимум на первый год эксплуатации;

• заключены контракты на обслуживание;

• написаны эксплуатационные инструкции для оборудования;

• в соответствии с инструкциями закуплен инструмент;

• проведено специальное обучение для команды эксплуатации.

Что касается сервисных контрактов, заключать их имеет смысл непосредственно по окончании SAT, когда уже точно понятен набор оборудования и работ для его обслуживания.

В некоторых проектах заказчик требует, чтобы эксплуатационные инструкции предоставлял поставщик (или производитель) оборудования, и такие инструкции передаются одной большой пачкой. Опыт показывает, что такие документы написаны плохо, ведь их автор не собирается по ним работать и старается побыстрее закончить досадную обязательную задачу. Намного разумнее, когда инструкции для себя пишет (или дорабатывает) сама команда эксплуатации, изучая оборудование в процессе всех этапов пусконаладки.

Запросить, что входит в стандартный комплект ЗИП[17] для оборудования, и оценить его стоимость нужно еще во время тендера. Это станет дополнительным фактором для осознанного выбора, и новый блестящий датацентр будет сразу же укомплектован всем необходимым. Важно достичь по этому вопросу полного понимания с проектной командой, потому что, в случае нехватки денег в бюджете проекта, они будут склонны экономить на закупке запасных частей – ведь все равно эксплуатация их потом купит. Можно и так, но тогда эти затраты должны быть заранее учтены в бюджете отдела эксплуатации.

Обучение по работе на своем оборудовании предлагают многие производители. В зависимости от особенностей программы его можно провести до или после пусконаладки. Если у выбранного производителя своего обучения нет, можно обратиться к другому поставщику и обучиться на схожих моделях. Принципы работы оборудования обычно те же самые, а перекладывание практических приемов с одного типа на другой поможет лишний раз изучить особенности именно своего.

Только после этого все участники строительства могут уходить и оставлять площадку в безраздельное владение эксплуатации. Если пусконаладка была проведена качественно – остальные больше не нужны.



Собираем план вместе

Как правило, те, кто никогда не участвовал в пусконаладке самостоятельно, чересчур оптимистичны, если не сказать наивны, относительно сроков ее проведения. В реальности вполне возможен срок, когда тщательный IAT одного щита управления занимает целый день, а если в модуле таких щитов 16, то только этот инсталляционный тест займет плюс-минус три недели. Это звучит ужасающе, и вариантов справиться с такой ситуацией много. От решения отказаться от прохождения каких-либо тестов до подготовки нескольких бригад, которые будут проводить тесты одновременно и параллельно.

Так или иначе, первым шагом должно быть составление базового графика пусконаладки. Вполне подходящим для решения этой задачи будет использование классических приложений управления проектами. Посмотрим, на что следует обязательно обратить внимание при подготовке плана-графика ПНР.

Не все нужно тестировать. Если речь идет не о высоконадежном объекте военного назначения, скорее всего, можно спокойно отказаться от FAT какого-то оборудования, особенно если производство находится в другой стране, а другое оборудование объединить в группы и тестировать именно эти группы.

Ресурсы ограниченны. Одна команда специалистов может выполнять только один тест в единицу времени, как в примере, описанном выше. Если требуется ускорение, то такие команды следует распараллелить. Очевидно также, что одна и та же команда не может одновременно выполнять IAT одного оборудования совместно с CT или SAT другого. Поэтому после составления графика нужно убедиться, что подобных конфликтов нет.

Правильно выстраивайте график зависимостей при составлении программы испытаний, чтобы увидеть кольцевые связи и при необходимости разнести тесты друг от друга.

Так, для CT системы вентиляции необходима подача электрического напряжения на щиты управления, но распределительные щиты не могут быть проверены и сданы без обеспечения необходимого для них охлаждения, реализуемого этой системой вентиляции. Очевидно, что какую-то из этих систем придется тестировать, подключив по временной схеме, а значит, и ее организация должна быть учтена в графике проекта.

Проведение некоторых тестов требует долгой подготовки. Например, установки временных коробок отбора мощности на шинопроводы или заглушек на местах для стоек. Такая подготовка сама по себе может занять день или два, поэтому нужно учесть это время и попробовать сгруппировать тесты с похожими требованиями в соседние дни, чтобы не делать это дважды.

 

Начало всех тестов нужно проводить в чистом и прибранном помещении, в котором уже не проводятся никакие работы. Так, запуск вентиляторов в зале, где до этого не была сделана генеральная уборка, приведет к урагану пыли и забытых материалов, а может кончиться и поломкой испытуемого оборудования. Соответственно, условия по уборке необходимо добавить в описания тестов.

Обращайте внимание на законодательные требования. Например, пусконаладку отдельных систем разрешено делать только после введения в эксплуатацию системы пожаротушения. То есть в правильно составленном проекте именно эта система должна сдаваться первой, как необходимое предварительное условие для всех последующих работ. В реальности же подавляющее большинство проектов оставляет эту важную систему на самый конец, а иногда ее наладка продолжается в уже действующем ДЦ.

Не все тесты пройдут безупречно. Поэтому план ПНР обязательно должен иметь некий запас по времени, если что-то пойдет не так. Если случится что-то серьезное, например в ходе тестирования будет поврежден какой-то из компонентов и потребуется его замена, в течение этого запасного времени можно будет придумать обходное решение.

После того как график составлен, его необходимо внедрить в общий план проекта. Здесь важнее всего договориться о триггерных событиях общего плана, которые будут являться сигналами о начале того или иного теста. На регулярных встречах по проекту, даже задолго до начала ПНР, нужно отслеживать, как смещаются эти точки, чтобы заранее видеть, какое влияние они оказывают на срок пусконаладки.

Так как ПНР является самым последним этапом в строительстве объекта, то нередка ситуация, когда из-за сроков сдачи проекта и при задержках на предыдущих этапах на команду ПНР оказывается мощное давление с целью максимально сократить объем и срок испытаний. Важно с самого начала дать понять всем участникам, что пусконаладка – это самый ответственный этап всего строительства и экономия на времени и тщательности ее проведения может обернуться очень серьезными расходами в процессе дальнейшей эксплуатации площадки.

Особенности подготовки документов

В этой книге мы не будем приводить образцы программ и отчетов по всем этапам тестирования. Вместо этого давайте перечислим важнейшие принципы, по которым документы должны готовиться.

• Из заголовков документов должно быть однозначно понятно, что за тест проводится (его тип), время и место проведения испытаний, какая организация является заказчиком, исполнителем и присутствующим свидетелем, перечислены фамилии представителей этих сторон с указанием главных контактных лиц. В программе испытаний нужно обязательно идентифицировать все проверяемое оборудование. Для бухгалтерии удобнее всего использовать инвентарный или серийный номер.

• Не просто формальной, а очень важной частью программы является описание предварительных условий, куда входит процедура перевода оборудования в состояние готовности к тестированию (например, выполнение процедуры LOTO[18]), перечисление всех необходимых инструментов (не забывая СИЗ (средства индивидуальной защиты), рации, блокноты, фото, видеокамеры и т. д.), проверка необходимых квалификаций персонала, проводящего испытания.

• Все записи о шагах тестирования должны быть в формате «что делаем – ожидаемый результат – фактический результат – заключение об успешности – комментарии». Если вы сравнительно недавно сдавали анализ крови, то вспомните, что напротив каждого из показателей стоит целевое значение для «нормальной» крови, а затем реально измеренное значение вашей, на основании сравнения этих цифр успешность прохождения теста очевидна. Так же должно быть и при пусконаладке. Недостаточно только записать «показания прибора – 10». Нужно понимать, находится ли 10 выше требуемого, ниже или это самый оптимум.

• Все тестовые шаги должны быть описаны с такой детализацией, чтобы их мог провести любой дежурный команды эксплуатации. Те, кто учился в технических вузах, могут вспомнить лабораторные работы: даже самые безалаберные студенты могли успешно их сдать, так подробно была описана последовательность действий.

• Желательно заранее подготовить необходимые таблицы для занесения данных. Если запись производится в электронном виде, нужно сразу подготовить размеченные графики, чтобы визуализировать данные.

• По окончании испытаний протокол (акт) для предотвращения спорных ситуаций должен быть подписан представителями всех сторон участников. Если одна из сторон не согласна с результатами, лучше, если она напишет об этом в протоколе, чем просто оставит его неподписанным.

• Необходимо разработать варианты отката – планы выхода из теста в нескольких ключевых точках программы на случай, если «что-то пошло не так», и по достижении этих ключевых точек задаваться вопросом: «Все по плану? Продолжаем?»

16Integrated Site Acceptance Test. Функциональный тест всего объекта как целого (в отличие от SAT, проводящегося только для части объекта).
17Запчасти и принадлежности. С точки зрения бюджета – все то, что можно списать как расходные материалы. С точки зрения инженера – физические объекты, необходимые для выполнения работ по техническому обслуживанию наряду с инструментом и спецодеждой.
18Lock Out Tag Out. Формальная процедура подготовки к проведению работ по техническому обслуживанию, заключающаяся в обязательной маркировке выключаемых органов управления оборудования, чтобы проходящий мимо доброжелатель не включил их обратно.