“百模大战”下算力租赁需求猛增,超算架构为大模型训练提速
“百模大战”下大模型算力需求猛增。北京超级云计算中心计划今年下半年起陆续上线3万余张满足大模型训练场景用的GPU卡,搭建超算架构大模型算力矩阵;并组建一支7×24小时技术服务团队。“在未来的市场竞争上,谁能把可用的资源变成好用的资源,谁就会在市场上胜出。”
北京超级云计算中心机房。
算力是当代生产力,超级计算也被称为高性能计算,同时使用几十台甚至几千台服务器这样庞大的算力资源共同完成一个计算任务。人工智能大模型的爆发让算力需求陡增。
“目前主流的大模型训练是超算使用模式,超算相比云计算更加贴合大模型训练场景,服务器之间的计算带宽配比更大,是目前主流云计算环境中的计算网络带宽的数十倍,数据传输效率要求更高。”2023世界人工智能大会期间,北京超级云计算中心CTO甄亚楠对澎湃科技(www.thepaper.cn)表示,北京超级云计算中心当前可调度超100万CPU核心、超2万张基于超算架构的大模型GPU算力卡。今年下半年起,北京超级云计算中心计划陆续上线3万余张适用大模型训练场景用的GPU卡,满足国产大模型研发需求,构建算力生态。
北京超级云计算中心(下称“北京超算”)成立于2011年,是在北京市人民政府指导下“院市”共建的国家重要信息化基础平台,坐落于北京市怀柔综合性国家科学中心怀柔科学城,成立之初主要为北京市提供在线算力资源,已在北京、内蒙古、宁夏布局三大算力枢纽。
计划陆续上线超3万余张GPU满足大模型训练
算力是人工智能大模型训练的核心生产力,GPT-4等大模型成功的背后有着万张训练卡的计算资源支撑,大模型爆发直接带来了算力需求陡增。北京超级云计算中心营销总监王永旭切身感受到了大模型爆发带来的“颠覆性”算力业务。在大模型兴起前,他所在的单位算力客户小而散,以科研院所为主;大模型流行后,AI算力需求猛增,客户主要为AIGC(生成式人工智能)企业,“ChatGPT的盛行为市场打了一剂强心针。”
北京超级云计算中心CTO甄亚楠。
北京超级云计算中心CTO甄亚楠介绍,“从客户需求情况来看,现在大模型单次训练任务基本上都需要几百张甚至几千张GPU卡做计算加速,同时需要长周期、稳定可靠的计算环境,保障计算任务不中断。”他表示,相对于大型科技公司,科研院所和初创企业的资金实力较弱,建设算力中心的投入高,因此平衡算力成本是重要考量。如果要新建1000张GPU卡的算力规模,包括服务器、交换机、存储、运营等相关资金投入就需要2亿元甚至更多。与此同时,目前国内仍处于缺卡状态,“各大服务器厂商要拿到新的GPU卡资源,预计供货周期都在半年以上,算力卡供不应求的情况应该会一直持续到至少明年年初。”
市场对于人工智能算力的需求旺盛。甄亚楠表示,北京超算具备天然的“技术基因”,目前可调度超100万CPU核心、超2万张基于超算架构的大模型GPU算力卡。从今年7月起,北京超算计划上线11720余张英伟达A800算力卡,以及19000余张英伟达H800算力卡。总体来看,从今年下半年起,北京超算将总计上线超3万张满足大模型训练场景用的GPU卡。
北京超算将符合推理与训练的算力资源通过云服务方式共享给用户,用户通过租赁方式远程访问算力资源。在甄亚楠看来,这种算力使用方式性价比高,用户无需自建算力中心就能获得稳定可靠的计算资源,节省使用成本,缩短计算时长,提高效率。相对于企业根据产品研发需求自建算力中心形成算力使用的波峰和波谷,算力服务商提供弹性算力,拉平算力需求,不浪费算力资源。
把可用的算力资源变成好用的算力资源
“我们最近看到一些大模型的训练需求,服务器之间的互联网带宽一般要求达到3200Gbps,但主流的云计算服务器之间的网络带宽在200Gbps,相差十几倍。如果环境配置和用户需求无法统一,用户的模型要么跑不起来,要么运行效果大打折扣。”甄亚楠说,目前主流的大模型训练是超算使用模式,比如一个模型需要用数百甚至千张卡连续计算两个月或者更久,超算则是把多台服务器进行统一管理和调度,实现高性能计算。大模型训练正是需要超算这种多台服务器并行的模式,而非传统云计算所采用的虚拟化共享模式。相比云计算,超算更加贴合大模型训练场景,服务器之间的计算带宽配比更大,是目前主流云计算环境中的计算网络带宽的数十倍,数据传输效率要求更高。
根据王永旭的观察,大模型算力客户在选择算力服务商时,主要关注GPU卡的型号、卡间互联、节点间互联、是否为超算架构的物理集群。大模型单次训练需要上百张甚至几千张卡,因此通讯非常重要,它会极大影响训练的速度。用于大模型训练的芯片必须是卡间互联大、节点间互联好的集群,这就好比高速公路畅通无阻、不堵车。
北京超算通过算力预测判断用户真正需要的算力资源,基于算力选型首先保证用户拥有可用的算力资源。甄亚楠表示,在解决可用以后要考虑如何让算力更好用,“我们为用户提供的不是单一技术、单一资源,而是一套满足用户综合发展需求的行业解决方案。通过7×24专家服务、平台预置AI主流框架、常用数据集等方式,满足用户在算力使用中方方面面的需求。”为实现算力资源的好用,北京超算在提供算力资源基础上组建了一支7×24小时技术服务团队,针对模型框架的安装、部署、优化以及长时间运行的保障诉求等提供在线技术支持,让终端用户轻松调度算力资源。
“在未来的市场竞争上,谁能把可用的资源变成好用的资源,谁就会在市场上胜出。”甄亚楠表示,目前北京超算已服务国内超20万用户,包括1000多家企业,并为北京智源人工智能研究院、智谱AI等单位提供大模型预训练所需的基于超算架构的GPU算力资源。
搭建算力网络期望GPU算力全国调度
今年5月,中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,中国10亿参数规模以上的大模型已发布79个。“我们希望以超算架构支撑大模型算力应用,成为超算架构大模型算力领跑者,不管是基于当前的大模型训练,还是未来可能会进一步爆发的模型推理。”甄亚楠表示,在“百模大战”之下,需要分析行业的真正痛点,考虑未来芯片、算力规模、业务场景的发展趋势。
大模型所需的算力分为两类,一类是训练算力,一类是推理算力。训练是一个计算密集型的学习过程,每一次训练可以提升模型的精准度,如果计算结果没有达到预期,就需要调整参数重新训练,直到达到预期。一旦模型精准度达到一定水准后,就会产生推理需求。推理是一个判断过程,基于训练好的模型,每次喂新数据,产生更多的预测结果。
甄亚楠表示,大模型训练的参数多、循环次数多,单次训练的算力需求大,而推理的判断逻辑相对固定,单次算力需求较小,当推理的并发量提升,也会提高推理的算力需求。目前国内大模型仍处于发展初期,大模型企业百舸争流,发力点主要集中在大模型训练上,因此训练算力紧缺。“现在我们面向大模型训练是提供基于超算架构的算力资源,面对推理以及小规模的测试验证,我们也提供基于云计算的算力资源,两条腿走路。”
为了更好地支持人工智能产业发展,王永旭表示,北京超算除了部署算力资源,也在全国搭建算力网络,以实现GPU算力全国调度的目标。此外参与到大模型用户的MaaS(模型即服务)推广中,计划集成算力、模型和用户端数据,为用户提供基于大模型基座的人工智能解决方案。
“中长期内,我们关注国产算力以及国产大模型研发需求,希望构建完善的算力生态,一方面建设满足行业需求的算力资源,提供算力共享、性能评测、应用场景支撑等服务,另一方面推动算力供应多元化,既提供通用GPU芯片,也提供国产芯片,解决供需失衡问题。”甄亚楠表示,北京超算将依托12年超算技术积淀和超算架构大模型算力矩阵,持续领跑大模型算力建设,以超算云服务模式实现海量算力资源随需供应,为大模型训练需求提供一站式解决方案。 (张静)
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
关键词:
推荐阅读
月壤形成的主要原因 月壤与土壤有什么区别
月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】
域名抢注是是什么意思?投资角度来看什么域名好?
域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】
捷达保养费用是多少?捷达是哪个国家的品牌?
捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】
天然气泄露会造成爆炸吗?天然气泄漏怎么办?
天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】
四部门明确App收集个人信息范围 个人信息保护范围判断标准
四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】
相关新闻
“百模大战”下算力租赁需求猛增,超算架构为大模型训练提速
“百模大战”下大模型算力需求猛增。北京超级云计算中心计划今年下 【详细】
方大集团:上半年净利同比预增60%-80%
公司主营业务收入增长,智慧幕墙系统及新材料业务、轨道交通屏蔽门业务 【详细】
宁乡市人民医院:党建引领医院高质量发展的“五个一”行动
观影现场。红网时刻新闻7月11日讯(通讯员曾曌娟黄莉)近日,宁乡市人 【详细】
重庆燃气全力保障燃气供应平稳安全
连日来,重庆燃气始终紧绷安全生产这根弦,大力推进安全强化年及安全生 【详细】
乡约福建:上杭早稻迎丰收
(杨国鑫熊予涵刘闽强温李红)11日,在福建省龙岩市上杭县中都镇聚胜家庭 【详细】
南京往返纽约全货机航线开通
7月11日清晨,承载着99吨货物的GG4864航班,从南京禄口国际机场顺利起 【详细】
为什么外国人不用手机壳,来保护 iPhone 手机呢?
很多人都会贴膜、带手机壳等措施,来保护手机,从而延长手机的使用寿命 【详细】
2023 年,那些真香的“洋垃圾” 真的快要成为垃圾了
就拿它于2020年发布的这款LGV60来说,这台手机搭载骁龙8655G芯片,拥有 【详细】
拥挤不堪?中国空间站变狭窄,国际空间站宇航员更是挤一起睡觉
随着科研时间之久,逐渐有人发现空间站内的使用空间越来越小,尤其是与 【详细】
11个已退出历史的“高科技”,你知道几个?
科技总是日新月异飞速发展,对普通老百姓而言,最直观的莫过于和自己天 【详细】
iOS16.5.1(a)正式发布,续航炸裂,信号难以置信,前所未有的优化
今天凌晨苹果发布了iOS16 5 1正式版,很多人都不知道带有后缀的是啥版 【详细】
超预期!6月金融数据全面发力,降准预期升温?
超预期!6月金融数据全面发力,降准预期升温?:据券商中国,央行发布2 【详细】
我国对RCEP其他成员国进出口稳定增长
本报北京7月10日电(记者杜海涛)据海关统计,今年前5个月,我国对RCEP 【详细】
dcom(server process launcher)
来为大家解答以上问题,dcom,serverprocesslauncher很多人还不知道, 【详细】
贵州一高速隧道发生涌水,交警称正评估原因,该隧道曾因地质复杂成研究案例
贵州一高速隧道发生涌水,交警称正评估原因,该隧道曾因地质复杂成研究 【详细】
iPhone 14 Plus 体验:8个月使用下来,它真的这么不堪吗?
或许很多人会说“不如加点钱咬咬牙上iPhone14Pro”、“买iPhone13ProMa 【详细】
黑河之后,西安即将喝上汉江水……
有着陕西境内“南水北调”之称的引汉济渭日前进入投产运行阶段,即将全 【详细】
1987年,中国第一位办手机的人,当时号码随便选,最终他挑了什么
一个电话就可以轻松联通全世界,这在“车马很慢、一封家书需要半个多月 【详细】
无意中发现,微信还隐藏一个认字的功能,再也不用随身揣字典了
无意中发现,微信居然还隐藏一个认字的功能。再也不用随身揣一本又厚又 【详细】
晶澳科技(002459.SZ):上半年净利预增146.81%-187.95% 光伏组件出货量和营收规模实现较大幅度增长
格隆汇7月11日丨晶澳科技(002459 SZ)公布2023年半年度业绩预告,报告期 【详细】