首先必须从每机柜的平均与峰值功耗出发。显卡密集的GPU服务器通常单机柜功耗在3–15 kW不等,设计时应按实际机型和未来扩容预留空间,建议初步按6–10 kW/柜作为基准规划。
冗余策略通常采用N+1、2N或并联冗余(A/B供电),对托管业务而言,常见要求为至少N+1 UPS和双路市电入口(A/B进线)。高可用客户可选择2N或双独立变压器。香港电网稳定但仍需考虑市电切换时间、供电契约与承载限制。
配电端应采用机柜级PDU、分级测量与远程监控。每条PDU建议有独立断路与监测模块,支持电流、功率因数和能耗统计。对GPU集群,需关注三相负载平衡,避免单相过载。
计费方面推荐采用精确到小时级或分钟级的能耗计费方式,结合实时告警。合同内应明确峰值计费、功率上限与超配费用。为降低客户风险,可提供分段功率阶梯或预留池,以便临时扩容且避免频繁改电。
香港属亚热带高温高湿,全年外气节能冷却(free cooling)效果有限,尤其夏季湿球温度高,水冷或机械制冷仍是主力。应结合全年气候曲线评估CRAC/CHW系统的COP与运行成本。
建议采用热力回收与分区控制:低密度区可用常规空调与冷通道封闭(cold aisle containment),高密度GPU区优先考虑液冷方案或冷板直连。屋顶机房若布置冷却塔,要注意噪音与邻里限制,并做好水处理与防腐措施。
风冷(air cooling)优点是部署灵活、成本前期较低、维护成熟;但在高密度GPU场景会遇到风量不足、冷热回流与PUE上升问题。液冷(rear-door heat exchanger、direct-to-chip)在高密度与节能方面更有优势,可将热量直接带走、降低机房所需冷量和空调能耗。
综合考量:当机架平均功耗超过8–10 kW/柜或单机密度极高时,优先采用液冷或混合冷却;若为分散式中低密度托管,则风冷+冷通道封闭仍为经济可行方案。实施液冷需额外考虑冷液品质、泄露风险与维护工艺。
布局上遵循“冷热通道分离、双路供电走向分离”的原则:将机柜按冷热通道排列并配合通道封闭,热通道尽量靠近排风系统或集中热水口,冷通道对准空调出风。电源进线与备用电源应尽量走不同路径并采用防火隔离。

布线方面,电缆与冷却管路应分层布局:高压输电与UPS输出沿独立桥架,网线与管理线走另一条,减少电磁干扰并便于维护。机柜前后留足维护空间,明确消防通道与地面承重,遵守香港消防与用电规范(如EMS及本地供电公司要求),并在设计初期与本地供电商和机房运维团队沟通接口与应急流程。