超大规模集群调优壁垒 清程极智从 AI Infra 中突围
2024-10-16 17:30 清程极智

大模型应用迎来大爆发时代,进一步激发了AI Infra的价值潜力,市场热度不断增加,融资热度不减。

AI Infra对大模型行业的价值是什么?清程极智CEO汤雄超近期描述,AI Infra 像一座桥梁,一端连接算力层,即被包装过的硬件,另外一端连接上层应用,AI Infra就是把这两端连接起来,让大模型更好地运行在芯片上。

说到底,就是让整个大模型生态更快、更强。

在汤雄超关于清程极智的主要客户的描述中,能够窥探出AI Infra行业的完整需求方,汤雄超对媒体表示,清程极智目前的客户主要来自AI Infra 这座桥梁的两侧:算力侧包含芯片厂商以及算力中心的建设方和运营方,应用侧则有来自 AI 应用公司以及做模型预训练厂商的需求

给芯片厂商补短板 让智算中心转起来

众所周知,对于目前国内芯片厂商来说,他们的软件生态和英伟达的系统成熟度有较大差异,像清程极智这样的AI Infra企业,对于芯片厂商的价值就是补齐软件短板,助力其更好发挥硬件性能。

当下AI智算行业蓬勃发展,智算中心建设加速,但技术的提升与建设数量的增加似乎并不同步,如何提高智算中心利用率,防止出现算力的空置、空转是必须解决的问题,“万卡甚至十万卡规模的集群用起来并不简单”,汤雄超如此评论,“清程极智则帮助算力中心把超大规模的集群给利用起来,让智算中心真正的运营起来”汤雄超说。

给AI应用降本 为预训练加速

在桥的另一边,是关于降本增效的主题

对于 AI 应用侧,目前我们能体会到的,市场上大部分大模型,响应耗时还比较长,影响用户体验,这给 AI 应用落地带来了较大障碍。

汤雄超介绍:“清程极智通过高性能的大模型推理引擎,同一个模型在同样的硬件平台上,经过清程优化的模型就能运行得更快,这种速度的提升有时将近百倍,充分提升用户体验的同时,AI 应用消耗的算力也将变少,这意味着算力成本随之降低。”

大模型预训练是大模型训练的一个重要阶段,清程也有基座大模型预训练的客户群体,模型预训练本身算力消耗大、周期长,清程则能把训练的性能提升百分之几十,时间缩短几个月,从而降低百万甚至近千万的算力开销。

清程极智的护城河:超大规模国产算力集群的使用和调优经验

据中金数据预测,目前,AI Infra 产业处于高速增长的发展早期,未来3-5年内各细分赛道空间或保持30%+的高速增长。如此残酷的市场竞争中,清程极智凭借什么突围?

汤雄超谈到一个背景:超大规模集群是否用的起来,直接意味着算力中心是否转得起来。这个观点似乎也已达成业内共识。

中国信息通信研究院院长余晓晖先前也曾对媒体表示:我国算力芯片生态比较碎片化,万卡不等于万卡集群,如何打造如此规模的集群也是下一步要面临的挑战。“有了万卡、10万卡,不一定就能把万卡、10万卡的能力完全发挥出来,卡越多,故障的概率越高,怎么能够打造大的、稳定的算力集群,是一项全球面临的挑战,需要非常多的技术创新协同。

而清程在市场上战斗的利器可谓是核武器级别,那就是业内尚没有第二家能做到的:十万台服务器的超大规模国产算力集群使用和调优经验。“现实中,哪怕是万卡、十万卡这样的超大规模训练和推理,能做的团队都不多”有业内人士同样如此评论。

这样的底气来自于清程团队在超算领域十几年的技术积累,清程团队目前 40 多人中 80% 都是研发人员,核心的技术负责人几乎都来自清华计算机系,系里的清华大学高性能计算研究中心一直以来都是国内超算研究顶级机构,清程的首席科学家翟季冬教授是清华大学学生超算团队的指导老师,曾带领清华大学学生超算团队十三次获得世界冠军。清程的这支擅长超算的团队在超算上做过很多事,以往主要解决重大民生问题,如天气预报、气候模拟、石油勘探等。人工智能时代来临,则给了这支团队全新的舞台,而他们的超算经验也赋予AI Infra 最强的动力。

人无我有,人有我优,实际上,除了各家都在做的推理优化之外,清程还可以做训练,而且是超大规模的训练。鉴于此,清程树立起自己超高的行业壁垒,成立仅半年时间,已获得多家明星VC的投资。