双零行动:零问题零等待,助力液冷规模部署 | 2025中国智算中心全栈技术大会精彩演讲

双零行动:零问题零等待,助力液冷规模部署 | 2025中国智算中心全栈技术大会精彩演讲

2025-07-09

以下文章来源于微信公众号——全球计算联盟GCC

编者按:
6月11日,2025中国智算中心全栈技术大会暨展览会暨第11届中国(上海)国际数据中心产业展览会、第6届中国数据中心绿色能源大会在上海新国际博览中心顺利举办。
2025中国智算中心全栈技术大会“全栈智算算存网加速进化”为主题。全球计算联盟秘书处CTO苗福友受邀在此次大会上以《双零行动:零问题零等待,助力液冷规模部署》为主题,详细解读了双零行动。
本文根据苗福友的演讲全文进行整理,略有删减。

在数据中心里,液冷的部署率已经接近10%,并且正随着算力密度的提升而不断地上升。“双零行动”的发起,是对液冷部署中所遇到的一些问题和挑战而采取的针对性举措。

“双零行动”的背景与目标

随着新产品和技术不断地出现并进入市场,在使用的过程中会遇到一些工程方面的问题,液冷领域也是如此,其中最突出的就是液冷材料兼容性,在部署中出现得比较频繁。
什么是液冷材料的兼容性问题?主要是液冷工质的多样性,管路、接头、阀件等各类材料的多样性,及其两者的兼容性问题,严重影响液冷服务器的部署效率,及其运行的可靠性。

因此,由全球计算联盟(GCC)开放液冷专业委员会(Open-Cool SIG)、中国电子工业标准化技术协会(CESA)开放计算标准工作委员会(OCTC)、中国电子工业标准化技术协会(CESA)新一代计算标准工作委员会(NGCS)、信息通信产业知识产权联盟(ICTIPA)液冷专业委员会益企研究院共同发起,联合组织了“液冷机房 部署零问题零等待”行动计划(简称双零行动),以达成“质量零问题、机房零等待”的目标。

“双零行动”的实施方式

“双零行动”的实施方式就是共同制定测试方案,发布液冷二次侧设备、材料、工质的兼容性报告和结果,形成推荐厂商、牌号资源池。主要分为两个步骤来实现,第一个步骤是前端做测试;第二个步骤是后端做反馈。
所谓前端做测试,指的是“双零行动”在测试过程中会根据测试结果形成一个白名单;后端做反馈,指的是有一些部件在使用过程中如果有一些问题,那么就可以反馈以修改白名单的过程。
通过制定白名单的方式,给包括整机厂家、云厂商和服务器市场等在内的整个行业的用户,提供一份可信任的名单。

“双零行动”的产业链收益

“双零行动”实施之后,对各方面都会有一些帮助。
在用户角度,可以减少机房等待时间,购买后快速部署使用,并提升了可靠性、减少兼容性问题发生。
在企业的实际采购过程中,根据采购到的设备来做测试,实际上会是一个相当漫长的过程,因为兼容性问题是长期的效果。比如说如果要做60摄氏度的1000小时的测试,那就要等待1000个小时,那就差不多一个半个月过去了,在实际的部署过程中,很难等待这么长的测试时间。  
在服务器厂商角度,可以减少机柜和服务器等待时间,可快速交付给客户。
在工质厂商角度,可以未公开保密配方,不涉及自身利益,减少兼容性测试投入。
因为事实上工质厂商不可能把成分公开,根据成分和材料对比之后做理论分析,通过参与“双零行动”,工质厂商可以不公开保密配方,不涉及自身利益,就可以减少兼容性测试的投入。
此外,对于参与的部件厂商来说,能够减少兼容性测试投入、规范二级物料使用、减少随意更换二级物料带来的风险。

“双零行动”的具体步骤

“双零行动”在2025年4月启动,计划在2025年底完成两批名单的发布。整个的工作计划分为如下几个步骤:
第一阶段,进行闭门研讨,行业内五十多位专家共同参与,涵盖用户到整机、部件厂商、工质厂家等领域,主要目的在于识别液冷部署中的具体问题;
第二阶段是筹备阶段,解决活动的组织管理问题,并行成管理团队和参与单位名单;
第三阶段是制定测试方案,研讨统一制定工质和材料兼容性测试方案。目前主要关注的事两种工质,一种是乙二醇,一种是去离子水。在方案制定之后,就会启动测试计划,包括哪些工质、哪些厂家的部件、测试周期、测试方式和测试机构等。
然后在第四阶段就会施行第一批测试。整个过程是长期持续迭代的,在今年的8-9月份会完成第一轮的测试和白名单的产生。

液冷部署的四大障碍

“双零行动”在4月份已经举办了一次闭门会议,识别了在液冷部署中的一些问题:
痛点1:材料兼容性无标准和清单不统一。项目招标需提供润湿清单或兼容性清单,但各厂商提供的不一样导致采购困难;提供的厂商可能无对应的材料;不同客户的兼容性要求不同,厂商每个项目需要根据要求的材料做大量的实验,投入成本高、周期长;采购成本高;材料确定不了影响机房的建设或影响设备进场从而导致巨大经济损失。(解决:“双零行动” ,产业链重点用户联合形成统一的测试方法,形成推荐资源池上网发布)
痛点2:工质无统一标准。工质来料无法保证,无法做到买回来即用,如来料钙镁离子检测超标;不同厂商间工质混用出现杂质等问题;国内工质标准老旧;工质标准无权威检测和认证,无标准-检测-认证体系化。(解决:制定工质标准、测试和认证,GCC标准已立项,预计25.9月-10月发布,测试和认证待定)
痛点3:CDU无统一标准。用户对CDU要求不一样,影响CDU型号和定制,如过滤网不同,CDU的泵和板换就不同,定制化多、周期长;CDU过滤网不同,导致换一家后不能适用,并且过滤网经常堵塞,运维难度增大。(解决:制定标准,GCC团标已立项,但重点是如何使用户达成一致和实际使用)
痛点4:运维无统一标准。工质检测点、检测方式、运输方式、检测标准等不统一,不知对错;液冷系统补液、换液标准不统一,粗暴换液有菌落超标等问题;服务器上下架整体换液数量大,能否在线换液,工具化、智能化换液;漏液检测无标准化点和方式,当前漏液检测绳太局限。

管理架构与活动Owner

“双零行动”设置了管理团队,以管理相关的活动。管理团队主要是来自四家启动双零行动的组织,包括OCTC、GCC、ICTIPA、NGCS,以及“双零行动”的运营中心益企研究院。管理团队的主要来源是用户和服务器厂家,正是他们在大量采购工质和部件,也邀请更多的用户来参与评审,并在实际运维中给与实际部署数据的反馈。中国计量院也参与了双零行动,益企研究院和全球计算联盟的秘书处共同运营具体的活动,产业链参与的企业已经到了七十多家。在管理团队中,我们分配了几位比较重要的牵头人,负责具体某个方面的工作,被我们称之为Owner。第一类Owner是技术Owner,主要负责的工作是制定测试方案,下午4:20有一个线上的会在讨论技术方案,设计乙二醇这个工质测试方案的工作。还有评审和评估兼容性测试报告,测试报告我们这里面的测试不是我们约定的找特定的第三方做这个测试,实际上测试报告可以来自任何来源,只要来源是可信,包括企业在自己实验室做的测试,只要符合我们的要求都是认可的,但是确实需要有一个评审评估的过程,确保这个报告里面的内容是真实的。技术Owner要负责评审和评估兼容性测试报告。第二类Owner是测试Owner,主要是测试计划的设定,我们这个里面涉及到的部件、企业、设备都非常多,我们不可能一批里面把所有来参与的部件都做测试,必然是要分不同的批次来做,所以我们要有一个制定的测试计划以及时间节奏等方面,也推动大家把这个测试报告提交上来我们好去做测试。第三类Owner是实施Owner,前面的测试还有白名单完成之后,后面是实际的部署过程中希望有部署数据的反馈,不断的刷新白名单,这个需要实施Owners来做这方面的事情,同时也负责推动行业结果的典型项目案例的打造和推广,也是做行业的宣传推介的过程。我们现在初步已经确定了几个Owners,技术Owner由华为技术有限公司来做测试Owners由京东云和中国移动设计院专家承接,实施Owners是抖音集团和中国电子技术标准化研究院来负责。当前的工作重点是开发工质兼容性的测试方案,重点是放在两类工质一个是乙二醇工质,还有一个去离子水工质,基本上也是在国内冷板式液冷的工质方面最主要的份额,可能还有丙二醇量比较少一些,可能后面会加进来。涉及到的材料,会分为三类,涉及到第一类就免测,没有兼容性问题就不管了,比如304不锈钢、316不锈钢,TU1、TU2纯铜这些也不用做第二次的测试。第二类不兼容的,建议禁用一类的,碳钢、锌、纯铝这些。还有需要做测试,因为生产质量各方面的问题有存在风险的就需要测试,比如氟硅橡胶,金属材料,铝合金就需要做测试。所以测试规范里面主要的内容是集中在第三类需要测试的这部分。具体测试上面有三类的过流材料,弹性材料、塑胶材料、金属材料。下面做了小的示例,弹性材料要测哪些东西,测试指标拉伸强度、断裂伸长率,硬度体积保持率等具体的测试项目。兼容性也是液冷在实际部署中遇到的一个问题,可能是当前也是比较紧迫的问题,可能并不是唯一的问题,可能还有其他的很多需要产业界大家一起去解决的一些问题。比如说运维方面的问题,二次管路加工工艺的问题,接头适配的问题,橡胶软管洁净度、AIDC建设规范等问题,这些问题我们双零行动也会持续的关注,在未来选择需要紧迫解决的问题也放到双零行动去解决。

王老师:wang.haifeng@e7acad.com

彭老师:pengjiahao@gccorg.com