
快科技 11 月 12 日音尘,摩尔线程晓示开yun体育官网入口登录体育,认真开源高性能线性代数模板库 MUTLASS,以便开采者大致更高效地针对摩尔线程 GPU MUSA Core、Tensor Core 等单位进行编程,加快基于国产 GPU 的算子开采以及算法立异。
在此之前,摩尔线程也曾接踵开源 OpenCV-MUSA 计较机视觉库、MooER 音频清爽大模子、vLLM-MUSA 诳言语模子高速推理框架。
▼ MUTLASS 开源地址:
https://github.com/MooreThreads/mutlass
在数值计较和深度学习边界,矩阵乘法(GEMM)偏激变种,比如 FlashAttention、Convolution,是构建复杂表层诳骗的基石。
不够,为了追求更高的算子交融后果,或者更立异的算法,开采者们时常需要疏淡轨范化计较接口的末端,如轨范 BLAS 接口以及芯片厂商的计较库接口,以末端高性能的定制化算子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)恰是为答应这一需求而筹备。
算作摩尔线程专为自研 MUSA 架构优化的高性能计较库,MUTLASS 是基于开源模板库 CUTLASS 进行的 MUSA 适配和定制化开采、优化。
针对矩阵乘法及关联变种,MUTLASS 提供了一系列高性能的 C++ 模板组件,并接收了与 muDNN 库访佛的分层明白及数据搬运战略,以确保性能的充分进展。
在本次开源的版块中,摩尔线程适配了 CuTe 后端库,为其加多了第三代 MUSA 架构的 MMA 计较原语,救济 TF32/FP16/BF16/INT8 等多种数据精度,并以此为基础,初步末端了矩阵乘法、默许实例库、性能测试器及关联用具包的救济。
借助 MUTLASS,开采者们既不错天真复用不同层级的模板组件,也不错按需修改各式模板组件的末端细节,以较低的开采资本末端定制化的高性能算子,从而在摩尔线程全功能 GPU 上充分开释性能,并尝试更多的算法立异。
摩尔线程将捏续优化 MUTLASS 的性能,并禁止引入新的功能。
开yun体育官网入口登录体育