近日,摩爾線程宣布成功推出大語言模型高速推理框架vLLM的MUSA版本,并對(duì)外開放源代碼。此舉旨在為開發(fā)者樹立一個(gè)典范,展示如何將開源項(xiàng)目MUSA移植至摩爾線程功能完備的GPU平臺(tái)上。
摩爾線程正致力于以其自主研發(fā)的統(tǒng)一系統(tǒng)架構(gòu)GPU和MUSA軟件平臺(tái)為核心,構(gòu)建一個(gè)既完善又好用的MUSA應(yīng)用生態(tài)系統(tǒng)。
vLLM作為一個(gè)高效且用戶友好的大模型推理與服務(wù)框架,憑借其PagedAttention內(nèi)存管理創(chuàng)新技術(shù)、連續(xù)批處理請(qǐng)求能力、對(duì)CUDA/HIP圖的快速模型執(zhí)行支持、CUDA核心優(yōu)化以及分布式推理等特性,顯著提升了大語言模型(LLM)的推理性能,并在業(yè)界得到了廣泛應(yīng)用,成為備受推崇的開源大模型推理框架。
摩爾線程基于vLLM v0.4.2版本進(jìn)行了精心移植與適配,使其能夠完美支持摩爾線程GPU后端Device,并已全面開放源代碼。這意味著開發(fā)者可以在此基礎(chǔ)上進(jìn)行二次開發(fā),或輕松將vLLM升級(jí)至社區(qū)的最新版本。
特別值得一提的是,摩爾線程MUSA架構(gòu)的先進(jìn)性以及軟件棧對(duì)CUDA的高度兼容性,使得用戶能夠通過MUSIFY代碼自動(dòng)轉(zhuǎn)換工具,輕松將原有的CUDA代碼遷移至MUSA平臺(tái),實(shí)現(xiàn)無縫替代。同時(shí),CUDA相關(guān)庫的調(diào)用也可迅速替換為MUSA加速庫,如muDNN算子庫、MCCL集合通信庫以及muBLAS線性代數(shù)庫等。
摩爾線程通過MUSA軟件棧對(duì)CUDA軟件棧接口的全面兼容,極大地提高了應(yīng)用移植的效率,縮短了開發(fā)周期。此外,公司還提供了一系列實(shí)用工具和腳本,如MUSIFY自動(dòng)代碼移植工具,以助力開發(fā)者更高效地完成代碼遷移與優(yōu)化工作。