面向服務器無感計算的模型推理服務切換方法研究
計算機工程與科學
頁數: 8 2024-07-15
摘要: 模型推理服務正隨著大模型技術的發(fā)展被廣泛應用,為模型推理服務構建穩(wěn)定可靠的體系結構支撐逐漸成為云服務商關注的焦點。服務器無感計算是一種資源粒度細、抽象程度高的云服務計算范式,具有按需計費、彈性擴展等優(yōu)勢,能夠有效提高模型推理服務的計算效率。但是,模型推理服務工作流呈現出多階段的特點,獨立的服務器無感計算框架難以確保模型推理服務工作流各階段的最優(yōu)執(zhí)行。因此,如何利用不同服務器無感...