校級異地超算集群管理的關(guān)鍵技術(shù)研究與實(shí)踐
計(jì)算機(jī)工程與科學(xué)
頁數(shù): 11 2023-12-15
摘要: 隨著高性能計(jì)算的業(yè)務(wù)增長和規(guī)模擴(kuò)大,機(jī)房空間、供電能力等外部因素常常會成為集群擴(kuò)容升級的制約因素,由此產(chǎn)生了異地超算集群的建設(shè)需求。異地超算能突破單個(gè)集群的地理限制,提供更多算力資源。基于上海交通大學(xué)“交我算”計(jì)算平臺建設(shè)異地聯(lián)合超算集群的實(shí)踐,總結(jié)了基礎(chǔ)設(shè)施與系統(tǒng)軟件的統(tǒng)一管理方法,以及集群異地容災(zāi)的高可用設(shè)計(jì),具體包括:適配Slurm作業(yè)調(diào)度系統(tǒng)、Open OnDemand...