基于用戶行為的超級計算機作業(yè)失敗預測方法
計算機工程與科學
頁數(shù): 9 2022-10-15
摘要: 超級計算機的規(guī)模不斷擴大,與此同時,科學應用的復雜性也在不斷增加,這導致了超級計算機上許多作業(yè)失敗。作業(yè)失敗會造成資源浪費,排隊作業(yè)等待時間延長,嚴重影響系統(tǒng)的執(zhí)行效率。提前預測作業(yè)失敗,就可以采取必要的措施提升系統(tǒng)資源利用率和系統(tǒng)執(zhí)行效率,這對未來的E級超級計算機至關重要。為此,嘗試研究從已知的傳統(tǒng)特征和構建特征中預測作業(yè)失敗,發(fā)現(xiàn)能夠反映用戶工作行為模式和提交行為模式的特征...