英伟达挑战者?专访Graphcore总裁、大中华区总经理卢涛:IPU的稀疏性要强于GPU丨WAIC 2023

2023-07-08 12:35:49

7月6日至7月8日,2023世界人工智能大会在上海举办。7月6日下午,Graphcore(中文名“拟未”)总裁、大中华区总经理卢涛接受了《每日经济新闻》记者专访。


(资料图片仅供参考)

本届大会评选出九大“镇馆之宝”,拟未“Graphcore C600 IPU处理器PCIe卡”就位列其中。据悉,Graphcore C600 IPU处理器PCIe卡主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上具有一定优势。它在提供低延时、高吞吐量的同时不损失精度,帮助AI开发人员解决“精度与速度难两全”的痛点。

Graphcore总裁、大中华区总经理卢涛

图片来源:受访者供图

值得一提的是,C600在提供强大的算力、易用性和灵活性的同时,还实现了低时延和低功耗,在运行典型工作负载时的散热设计功耗为185瓦,可为运维人员减少数据中心运营开支。

IPU与GPU有何差异?

目前,业界普遍使用英伟达的GPGPU作为算力芯片,拟未的IPU和英伟达的GPGPU相比,有何差异呢?

卢涛表示:“首先从设计理念上,就和(英伟达)挺不一样的。一是计算架构不一样,二是存储架构不一样。我们是综合了非常多个核的处理器,比如C600,每个IPU具有1472个处理核心,能够并行运行8832个独立程序线程。而英伟达GPU的SM Core(stream multiprocessor核心)大概是100多个,不同产品配置不一样。其所谓的CUDA Core和Tensor Core其实是挂在SM上面的加速器、运算器。CUDA Core只是一个运算单元。”

图片来源:每经记者 朱成祥 摄

存储架构方面,卢涛表示:“无论是英伟达的GPU,还是谷歌的TPU,都是两级内存。一级是(显示)芯片里面有一个四五十兆的内存,外面挂着HBM或者显存。我们IPU,在芯片里面就有900兆的片上SRAM存储,并且是分布式的。之前我们所说的1472个处理核心,跟片上SRAM存储是耦合在一起的。”

IPU这种架构有何好处呢?卢涛称:“计算(核心)跟存储耦合,非常适合做稀疏化,以及做一些高维运算。跟GPU对比,如果对稀疏性要求比较高、高维方面要求比较高,我们的优势会更大。如果是矩阵运算,我们就差不多或者是优势小一些。”

软件生态:不兼容CUDA,为客户提供更优解

从上述介绍来看,C600是主打推理,兼做训练。那么拟未本身的芯片产品,主要应用于训练端还是用于推理端呢?

卢涛表示:“我们是训练、推理一体的,只不过针对系统层面会有不一样的要求。比如说训练,要做大规模的扩展。如训练集群,需要一千个或者几千个处理器连接在一起。推理不需要那么大规模的互联。训练和推理,我们处理器本身没有特别大的区别,更多是从系统层面体现。”

值得一提的是,英伟达不仅强在硬件,其软件生态CUDA更是难以替代。那么,拟未的IPU能兼容CUDA吗?

卢涛表示:“我们不兼容CUDA,这是一个非常有意思的问题,属于哲学层面上的问题。如果你是客户,询问是否CUDA兼容,本质是想不花任何功夫,或者花很少的精力,把软件、把应用在处理器上用起来。”

他进一步分析称:“这里面就有两个命题,一是CUDA兼容,但CUDA是英伟达自己的软件生态,是针对英伟达GPU架构实现的。API你能看得到,但底层各种优化,都是针对其GPU体系结构优化的,你根本不知道怎么做。二是CUDA不兼容,这就需要尽量减少客户迁移的成本,让客户在极端情况下,不需要做什么就能迁移,或者花比较少的工作量就能迁移。”

封面图片来源:受访者供图

关闭
精彩放送