迎接智算新挑战,天翼云亮相全球架构师峰会!

news/2024/9/29 5:23:14

近日,ArchSummit全球架构师峰会在深圳隆重开幕,本次大会以“智能进阶. 架构重塑”为主题,探讨AI浪潮下,企业架构如何适应大模型和云原生的时代趋势,寻找既有应用成果又有成本效益的解决方案。国内外100余名顶尖专家齐聚一堂,围绕AI、大模型、云原生等话题展开深度交流。天翼云云网产品事业部研发专家黄坚受邀参会,并在“智算平台建设与应用实践”专题会上发表主题演讲,分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。

 

天翼云云网产品事业部研发专家 黄坚

大模型时代

超大规模智算集群运维面临新挑战

随着大模型风潮来袭,加快建设超大规模智算集群,已成为增强多元算力供给的重要措施。与传统云原生大规模场景相比,超大规模智算集群的管理复杂度和难度更高。黄坚表示,当前,在充分发挥超大规模智算集群的算力方面,整个行业还面临着诸多挑战:

首先,智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中,要求最大化使用底层算力,这就要求从业者既要懂算法,又要懂算力,同时需要具备结合算法算力的工程化思维,从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。

其次,硬件无明确异常指标,定位难度大。虽然通过监控可以覆盖一些明显的软硬件问题,但更多类似于光模块故障等问题,需要综合光衰、温度、功耗等多个维度,并结合业务异常,才能实现准确定位。

再次,日常管理复杂度高。超大规模智算集群规模大、数量多,如何实现百万量级元器件的系统化、模块化、周期化管理,并与业务方进行有效协同,是运维的难点。

作为云服务国家队,天翼云加强核心技术自主研发,积极探索超大规模智算集群运维之道,不断升级产品和生态矩阵,为AI开发者提供“供得上、用得起、用得好”的智算服务。

实践与创新并举

国云底座赋能智算云生态建设

在平台层面

天翼云全新升级一体化计算加速平台“云骁”,“云骁”具备超大规模集群管理、运营和算力加速能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体,让智算更快、更稳。

在算力层面

天翼云加速推进多层次智算算力布局,打造万卡级超大规模智算中心,满足快速增长的智算算力需求。目前,天翼云上海临港国产万卡算力池已正式启用,这不仅是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心,创新性采用网络中置、算力分层的“魔方”型组网,实现了单一集群内万卡高速互联,满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。

未来,天翼云将持续坚持科技创新,深耕云智一体,不断夯实国云智算底座,为数字经济发展与数字中国建设注入澎湃动能。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/47483.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

窥探Mybatis配置到执行源码剖析

mybatis自动配置过程 首先我们项目中使用mybatis如果是mybatis的话会引入依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>${mybatis-plus.version}</version></d…

5.21实验三 Web数据库程序设计

一、实验目的 通过使用JSP技术设计一个简单的数据库管理系统,了解展示页面和编辑页面的区别,掌握Web服务器与MySQL数据库的连接和数据库操作的方法,掌握使用Java语言编写JSP文件的方法。 二、实验内容和基本要求 从以下列举的四个数据库中,任选其一,或者自行定义其他数据库…

应对高温“烤”验,数据中心降温奇招来了!

近日,中国电子学会联合中国电子技术标准化研究院等单位,在安徽省合肥市举办“节能服务进企业”暨绿色数据中心对接推广活动。会议为天翼云存储资源盘活系统HBlock入选《国家工业和信息化领域节能降碳技术装备推荐目录(2024年版)》颁发荣誉证书;天翼云存储产品专家肖夏敏发…

热҈热҈热҈!天翼云开出解暑“凉方”!

天翼云依托技术、产品优势,为建筑工地提供覆盖采集、传输、处理、分析、展现等环节的视频系统整体构建方案,通过搭建智慧工地智能监控平台,实现对人、机、料、法、环全方位实时监控,为施工建设全周期提供安全保障。通过专网连接,实时监测工地温度、湿度及气候变化趋势,及…

数据库数据恢复-oracle数据库常见故障及数据恢复分析

作为存储和处理数据的系统,oracle数据库在使用过程中不可避免会出现各种导致数据丢失和数据损坏的故障。总结出oracle数据库常见故障以及恢复可能性。1、Oracle数据库无法启动或者启动后无法正常工作。 如果故障是突发性的,通常情况下恢复的可能性极高。出现这类故障后,首先…

服务器数据恢复-重建MDisk导致VDisk丢失的数据恢复案例

服务器数据恢复环境: IBM某型号存储; Solaris操作系统,部署Oracle数据库。服务器故障: 重建MDisk导致对应的存储池中的VDisk丢失,导致Solaris操作系统中的Oracle数据库无法使用。 服务器数据恢复过程: 1、将所有涉及到Oracle数据库的VDisk以只读模式连接到备份服务器上,…

服务器数据库

数据库往往是服务器中最核心的部分,所以一旦数据库发生损坏,将会带来巨大的损失,因此数据库的数据恢复功能变得越来越重要了。 在服务器运行过程中,由于断电、操作不当原因损坏到服务器的硬盘的时候,怎样才能恢复网站服务器的数据呢?一、服务器存储系统非常重要,硬盘作为…

遭到勒索攻击,只因打开了陌生邮件

有网络安全意识的大都知道,陌生的邮件最好不要打开,更不要去打开附件,这很有可能是黑客传播的邮件。而近日,就有随手点开了这样一封电子邮件,而让办公室内的三台服务器都相继感染了360勒索,幸运的是这三台服务器中都没有保存什么太过重要的数据,不需要花费大量的时间重建…