训练需求井喷 “算力之渴”何解

发布时间:2024-12-06 06:35:03 来源: sp20241206

原标题:训练需求井喷 “算力之渴”何解

近日,《算力基础设施高质量发展行动计划》印发,算力整体布局持续优化,全国上下已形成积极推动算力产业快速健康发展的局面。工信部数据显示,截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197百亿亿次/秒,算力总规模近5年年均增速近30%,存力总规模超过1080EB。

与基础设施建设相同步,算力融合应用加速涌现。根据中国信息通信研究院(以下简称中国信通院)的测算,2022年我国算力核心产业规模达到1.8万亿元。算力每投入1元,将带动3至4元的GDP经济增长。

但与此同时,大模型产业井喷式发展也带来算力紧缺、能耗激增等问题。目前国内已有100多个大模型公开发布,这加剧了智能算力紧张的局面。面对需求的暴增,“算力之渴”如何解?

“绿化”算力全产业链

“我们正在推动液冷、间接蒸发自然冷却等节能技术的应用,并在部分算力中心开展试点。同时,我们正推动数据中心企业启动氢燃料电池等绿电在数据中心的试点,梳理10个‘小散老旧’数据中心(约4000个标准机架),预计将于年底前全部完成数据中心改造任务。”近日,在工业和信息化部新闻宣传中心(人民邮电报社)、中国邮电新闻工作者协会等单位联合组织的“算力中国行”大型调研采访活动中,上海市通信管理局信息通信发展处副处长魏征对记者表示。

满足算力需求,除了增加算力供给规模以外,数据中心的“降耗增效”也正在紧锣密鼓地进行。目前,从政府到企业,各个主体都在积极探索优化数据中心制冷系统,提高算力应用环节效率。

近日,蚂蚁集团与中国信通院发布《面向算力应用环节的计算绿色化白皮书》(以下简称白皮书),白皮书显示,截至2023年6月,我国累计建成196家国家绿色数据中心,行业内先进绿色中心电能利用效率降至1.08左右,达到世界领先水平。但伴随产业发展,PUE指标(即评价数据中心能源效率的指标)的优化空间不断减少,局限性逐渐显现。

蚂蚁集团首席技术官、平台技术事业群总裁何征宇坦言,算力由数据中心的服务器提供,但实际上大量的电能都被用于维持服务器的正常运转,而并没有供给计算服务本身。根据统计数据,目前的数据中心可能只有低于20%的电能用于计算本身。

白皮书也提到,在推动算力绿色低碳发展的过程中,行业的关注点仍主要停留在可再生能源生产和绿色数据中心建设上。为了实现更大程度的总体节能减排效果,需要重视“端到端的绿色计算”。

端到端的绿色计算,即从电力生产、算力生产(包括智算中心建设商、硬件厂商、云厂商),到算力应用全产业环节的绿色计算。据何征宇介绍,在电力生产环节,主要通过优化用能结构,实现数据中心清洁能源和新型储能的合理利用,围绕源网荷储一体化的微电网并网模式,探索数据中心与能源融合发展的绿色新场景;在算力生产环节,通过应用高能效绿色硬件技术与产品,以及从选址、设计、施工、运营等环节入手提高数据中心全生命周期绿色化水平,推进数据中心节能减排改造与绿色低碳化重构,并采用高效IT系统、制冷系统、供配电系统以及辅助系统,协调促进算力绿色生产与绿色传输;在业务应用环节,要注重提高软件平台对计算资源的利用率,提升应用与算法效率,将固有计算资源通过动态、弹性的方式进行调配,减少算力应用侧能源消耗,实现算力在服务环节的绿色低碳。

白皮书强调,算力应用环节的绿色计算,是智能算效提升空间最大、收效最快,也是尚未被足够重视的部分。

提升算力调度水平

当前,算力网络快速融合,多样的算力需求提升了对异构算力网络的需要,而将不同类型的算力资源高效精准地调度到相应需求的资源节点中,就需要进行算力调度。

让算力像水、电一样流动,供有需要的企业按需取用,是算力调度的理想状况。近两年,国内涌现出一大批算力调度平台,这些平台可通过整合不同来源、类型和架构的算力资源,满足丰富的业务应用场景需求。今年6月,我国首个实现多元异构算力调度的全国性平台“全国一体化算力算网调度平台”发布。

中国工程院院士高文表示,我国算力网络面临的两大技术挑战,其中之一就是算力调度挑战。目前云算力、智能算力、超算算力、混合算力的服务商入口、系统、计费标准等均不相同,这为算力调度带来了一定挑战。

中企通信数据科学及创新总监詹东东也表示:“尤其对于云计算和边缘计算协同的算力架构而言,最重要的是对算力的调度能力。对算力的需求很多时候会分布在不同的区域,如何协同好这些算力,是很多客户正在思考的问题。”

国家(上海)新型互联网交换中心(SHIXP)是算力调度、交易的重要试点。记者了解到,SHIXP主要负责本地区的算力网络和算力中心的算力调度,并于今年7月底正式上线了全国首个算力交易平台。目前,SHIXP已建成算网节点14个,吸纳入驻企业40家,接入国内主流运营商8家、总带宽1.82T,累计等级算力资源超过156千万亿次/秒。

“我建议,全国要建一个大的算力调度标准。”魏征表示,统一标准的建立,意味着所有的云服务商要对外提供统一、可度量的算力服务,既保证现有运营商资源的直接输出,也保证他们在未来统一市场的可持续发展。

推进国产化软硬件适配

随着人工智能技术的大爆发,特别是大模型时代的到来,通用大模型正快速向行业垂直应用领域推进。通过模型调优与快速迭代,垂直大模型正在释放前所未有的产业数智新动能;同时,智算资源紧缺、国内产品相对不足的痛点也更加突出。除了硬件制造能力,在底层技术开发、软件生态适配和场景落地实践等方面,中国算力产业还需长足进步。

上海市通信管理局二级巡视员葛伦卿表示,目前我国在算力供给方面,还面临着国产适配性较差等问题。目前很多国产芯片厂商都在做自研或兼容开源生态软硬件,企业间的低效竞争等问题愈发突出。针对这些问题,联盟、协会等行业组织要凝聚共识,帮助算力供给方打破技术和生态壁垒,加强国产化软硬设备的研发与应用。

工业和信息化部相关负责人表示,围绕算力发展需要,应增强自主创新能力,推进计算架构、计算方式和算法创新,加强CPU、GPU和服务器等重点产品研发,加速新技术、新产品落地应用;同时,围绕算力相关软硬件生态体系建设,将加强硬件、基础软件、应用软件等的适配协同,提升产业基础高级化水平。

(责编:杨曦、陈键)