當(dāng)前位置:首頁 > 科技文檔 > 硬件 > 正文

自治故障管理系統(tǒng)推理規(guī)則的智能學(xué)習(xí)技術(shù)

計算機(jī)工程與科學(xué) 頁數(shù): 10 2023-05-15
摘要: 隨著高性能計算機(jī)系統(tǒng)規(guī)模急劇增加,系統(tǒng)整體的固有可靠性逐步降低,產(chǎn)生了“可靠性墻”問題。為了應(yīng)對這一挑戰(zhàn),天河高性能計算機(jī)系統(tǒng)設(shè)計了自治故障管理系統(tǒng),通過該系統(tǒng)實(shí)時監(jiān)控、分析、管理全系統(tǒng)的報警、故障和錯誤。自治故障管理系統(tǒng)所收集的故障消息垂直涵蓋系統(tǒng)的各個邏輯層次,水平覆蓋系統(tǒng)的全部功能模塊,因此故障消息之間存在邏輯上的因果關(guān)系,即一個故障源會導(dǎo)致后續(xù)一系列的故障事件。提出了一...

開通會員,享受整站包年服務(wù)立即開通 >
科技文檔