大模型技术路径:通用与定制的平衡
发布时间: 2023-10-24 10:35

技术路径:通用与定制的平衡

在AI芯片的发展过程中,通用性和定制化像是两个互相拉扯的作用力,衍生出一系列的芯片架构。其中,GPU和ASIC分别是通用性和定制化的代表架构,也有着各自的优势和局限。

“GPU架构提供了大量数据并行结构,因此能够提供大量的AI并行计算,适用于AI训练等。ASIC等定制化AI芯片针对特定的应用场景进行芯片优化,能够取得更高的计算能效,但通用性相对较弱。”贾天宇表示。

好在,随着芯片技术的发展,通用性与定制化已不再壁垒森严。一方面,英伟达在GPU架构中引入了Tensor Core(张量计算核心),一种专门针对深度学习应用而设计的专用ASIC单元,使GPU更加适合深度学习。与此同时,定制化芯片也逐步增加了通用计算单元,并引入可编程或部分可编程的架构,增强芯片的场景覆盖能力。

“过去被认为只具备专用性的ASIC或DSA(领域专用架构),现在不仅含有用于AI加速计算的专用单元,还含有与英伟达GPU中CUDA Core类似的通用计算单元,同样可以实现对各种指令的处理。因此,无论是GPU、ASIC或DSA架构,云端AI芯片企业在架构设计中需要关注的是通用和专用计算单元的搭配,以便应对AI计算持续演变带来的挑战。”昆仑芯科技向记者表示。

“鉴于大模型对于大算力的显著需求,以及模型训练算子的多样性,具有大算力、通用性的芯片将是大算力应用的首选。在现存的技术方案中,GPU是能够提供算力和开发生态的选择。然而,由于GPU的功耗过高,类GPU架构的定制化大算力AI芯片也将存在市场,满足对于芯片计算能效的提升需求。”贾天宇指出。

昆仑芯科技在全球人工智能开发者先锋大会的展位

而通用与定制的“配比”,要根据具体场景设计。昆仑芯科技表示,在通用性、易用性和性能之间实现平衡,需要在实际设计中结合需求。除了单一技术或者算力指标,更要注重产品的综合竞争力是否均衡。百度的AI应用场景,为昆仑芯提供了验证和调优机会。就大模型而言,昆仑芯在产品定义上已经做了布局,昆仑芯2代AI芯片相较昆仑芯第1代产品大幅优化了算力、互联和性能,在百度内外部的大模型场景中都有落地,昆仑芯在研的下一代产品将为大模型和AIGC等应用提供更佳的性能体验。

“硬件和场景是双轮驱动的,场景催生新的技术方案,新的技术促使场景更好发展。大模型作为一个趋势场景,其需求定义清楚了,设计和实现技术就会水到渠成。”昆仑芯科技告诉记者。

另外,无论是通用芯片还是定制芯片,抑或是通用、专用计算单元兼而有之,设计环节之后的制造、封装环节,也将作用于AI芯片的性能提升。

“无论GPU还是定制化AI芯片路线,Chiplet、3D堆叠等先进集成与封装技术将成为进一步提升大模型计算能力的重要技术手段,也将在未来AI芯片发展中起到重要作用。”

粤公网安备 44030502006483号、 粤ICP备15047669号
  • 捷易科技联系人