快科技9月5日消息,据国内媒体报道,国产AI芯片公司壁仞科技即将在2024全球AI芯片峰会上,首次公布自主原创的异构GPU协同训练方案HGCT。
据了解,这将是中国首个三种异构芯片混训技术,业界首次支持3种及以上异构GPU混合训练同一个大模型(壁仞GPU+英伟达GPU+其他国产芯片),用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。
在此之前,AI Infra公司无问芯穹的4+2芯片,最多仅支持2种GPU同时训练。
性能方面,HGCT混训方案的异构协同通信效率大于98%、端到端训练效率90-95%,一举突破了大模型异构算力孤岛难题。
可靠性上,目前可以实现千卡集群、千亿参数的自动断点续训小于10分钟,15天连续训练不中断,4天连续训练无故障。
据悉,壁仞科技正在联合客户、合作伙伴、科研机构共同推动异构GPU协同训练生态,包括:中国移动、中国电信、商汤科技、国网智能电网研究院有限公司、上海智能算力科技有限公司、上海人工智能实验室、中国信息通信研究院等。
公开资料显示,壁仞科技成立于2019年9月,主要研发通用 GPU(GPGPU),用于人工智能训练和推理等领域。
2021年3月,壁仞科技完成B轮融资,累计融资额超47亿元人民币
20202年8月,壁仞科技正式发布首款通用GPU芯片BR100,创下全球算力纪录,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。
甚至与NVIDIA当时4nm 旗舰H100相比,BR100的纸面性能数据也毫不逊色。