自治故障管理系統(tǒng)推理規(guī)則的智能學(xué)習(xí)技術(shù)
計算機(jī)工程與科學(xué)
頁數(shù): 10 2023-05-15
摘要: 隨著高性能計算機(jī)系統(tǒng)規(guī)模急劇增加,系統(tǒng)整體的固有可靠性逐步降低,產(chǎn)生了“可靠性墻”問題。為了應(yīng)對這一挑戰(zhàn),天河高性能計算機(jī)系統(tǒng)設(shè)計了自治故障管理系統(tǒng),通過該系統(tǒng)實(shí)時監(jiān)控、分析、管理全系統(tǒng)的報警、故障和錯誤。自治故障管理系統(tǒng)所收集的故障消息垂直涵蓋系統(tǒng)的各個邏輯層次,水平覆蓋系統(tǒng)的全部功能模塊,因此故障消息之間存在邏輯上的因果關(guān)系,即一個故障源會導(dǎo)致后續(xù)一系列的故障事件。提出了一...