高性能計(jì)算檢查點(diǎn)技術(shù)發(fā)展與應(yīng)用綜述
計(jì)算機(jī)科學(xué)
頁數(shù): 14 2024-04-03
摘要: 隨著高性能計(jì)算系統(tǒng)的規(guī)模不斷擴(kuò)大,復(fù)雜度不斷提升,應(yīng)用的容錯(cuò)能力成為E級(jí)計(jì)算面臨的重要挑戰(zhàn)之一。檢查點(diǎn)技術(shù)是實(shí)現(xiàn)應(yīng)用程序的容錯(cuò)能力的主要手段之一,通過定期保存應(yīng)用的執(zhí)行狀態(tài)來實(shí)現(xiàn)故障恢復(fù)。文中針對(duì)高性能計(jì)算檢查點(diǎn)技術(shù)的發(fā)展和應(yīng)用情況展開綜述。首先,整理了高性能計(jì)算領(lǐng)域中檢查點(diǎn)技術(shù)的發(fā)展;其次,根據(jù)運(yùn)行層次的不同,分別闡述了系統(tǒng)層檢查點(diǎn)和應(yīng)用層檢查點(diǎn)的工作,包括主流的工具軟件、可...