登錄
微信登錄
打開手機(jī)微信,掃描二維碼
掃描成功
請(qǐng)勿刷新本頁面,按手機(jī)提示操作
中科曙光不會(huì)以任何理由要求您轉(zhuǎn)賬匯款,謹(jǐn)防詐騙
您的微信還未注冊
中科曙光不會(huì)以任何理由要求您轉(zhuǎn)賬匯款,謹(jǐn)防詐騙
您可以同時(shí)關(guān)注中科曙光微信公眾號(hào)
使用微信掃一掃即可登錄! 查閱資料更方便、 快捷!
您已經(jīng)注冊賬號(hào)和
關(guān)注微信公眾號(hào)
2025年1月
服務(wù)熱線:400-810-0466
發(fā)布時(shí)間: 2013-02-02
相信很多人都對(duì)傳說中的“隱身衣”有著不同尋常的好奇,這種只存在《哈利波特》中的魔法寶物是真的嗎?“隱身衣”到底是大自然的奇跡,還是科學(xué)的力量?深圳光啟高等理工研究院(以下簡稱光啟研究院)劉若鵬院長告訴記者:“隱身衣”是一種超材料技術(shù)研制、通過引導(dǎo)微波“轉(zhuǎn)向”防止物體被“發(fā)現(xiàn)”的科學(xué)產(chǎn)物。
光啟研究院自2010年7月揭牌成立后,吸引了多個(gè)國家和地區(qū)的杰出科學(xué)家,在充滿活力的交叉學(xué)科合作中,建立起具有廣闊國際視角的科研環(huán)境。不到兩年的時(shí)間內(nèi),光啟研究院已經(jīng)成為中國超材料技術(shù)的領(lǐng)軍企業(yè)。
2011年,光啟研究院全面啟動(dòng)超材料制備與封裝技術(shù)重點(diǎn)實(shí)驗(yàn)室等5個(gè)重點(diǎn)實(shí)驗(yàn)室和超穎射頻技術(shù)工程實(shí)驗(yàn)室等6個(gè)工程實(shí)驗(yàn)室的建設(shè),在光啟的實(shí)驗(yàn)室中,曙光GPU解決方案通過跨越“三重門”,成為集群管理成功的關(guān)鍵。
三重考驗(yàn) 挑戰(zhàn)集群管理操作能力
因?yàn)檠邪l(fā)需要,光啟研究院GPU集群所承擔(dān)的大部分科研工作需要使用CST Microwave studio2011、 COMSOL 4.2和MATLAB三個(gè)軟件作大規(guī)模計(jì)算,三個(gè)軟件對(duì)集群的要求各具特色:
可用的CST Microwave Studio 2011版本在分布式計(jì)算時(shí),要求頭結(jié)點(diǎn)必須是Windows Server 2008 R2 操作系統(tǒng),計(jì)算結(jié)點(diǎn)必須是LLinux系統(tǒng)。CST2011可以使用GPU加速,單結(jié)點(diǎn)可以掛載多顆GPU;自帶MPI通信工具;自帶作業(yè)調(diào)試器。
而COMSOL4.2有兩類使用,單個(gè)大作業(yè)、多個(gè)小作業(yè)。計(jì)算時(shí)需要調(diào)用MATLAB,因此需要將MATLAB與COMSOL配置正確,以使協(xié)同工作。
MATLAB 2011b 則需要支持GPU加速,同時(shí)支持分布式并行計(jì)算,自帶作業(yè)調(diào)度工具,客戶端不必登錄服務(wù)器就可以提交作業(yè)、查看結(jié)果。
面對(duì)三個(gè)大型軟件同時(shí)工作時(shí),普通的GPU根本無法滿足如此大規(guī)模的計(jì)算,往往會(huì)陷入崩潰的狀況。針對(duì)光啟研究院的特別需求,曙光公司迎難而上,制定了一整套GPU解決方案。
一個(gè)集群管理軟件GridviewGridview PK多個(gè)工作調(diào)度
要滿足光啟研究院的需求,既要整合三個(gè)軟件到同一個(gè)作業(yè)調(diào)度系統(tǒng)之中,又要避免三個(gè)軟件使用各自調(diào)度器帶來的資源競爭和資源閑置。這是一個(gè)極具挑戰(zhàn)性的任務(wù),必須深入了解這兩款商業(yè)的軟件的架構(gòu),實(shí)現(xiàn)無縫融合,讓軟件用戶感覺不到作業(yè)調(diào)試系統(tǒng)的改變。
為此,曙光公司研發(fā)人員認(rèn)真研究了光啟的應(yīng)用需求。光啟研究院的科學(xué)家是超材料的專家,卻不是IT專家,怎樣讓他們不必登錄集群、不必學(xué)習(xí)LLinux命令,只需打開瀏覽器就可以直觀地提交作業(yè)、查看計(jì)算結(jié)果呢?光啟近二百位科學(xué)家?guī)缀趺刻於荚谑褂眉海疫\(yùn)算能力越高越好,就需要GPU越多越好;光啟的機(jī)房剩余空間不多,必須提供計(jì)算能力密集的服務(wù)器;還要考慮同時(shí)配置Windows結(jié)點(diǎn)和Linux結(jié)點(diǎn),以便使用CST2011,兩類結(jié)點(diǎn)要統(tǒng)一調(diào)度;而且單個(gè)作業(yè)需要使用多顆GPU,GPU間通信需要高速互聯(lián)網(wǎng)絡(luò)……
最終,曙光公司決定使用集群管理軟件Gridview中的作業(yè)調(diào)度模塊替代CST2011和MATLAB 2011b 自帶的作業(yè)調(diào)度工具,實(shí)現(xiàn)作業(yè)的統(tǒng)一調(diào)度。曙光公司集群管理軟件Gridview支持定制開發(fā)portal,集群管理員可以快速開發(fā)出特定應(yīng)用軟件的portal。
而且曙光提供的GPU高性能解決方案系統(tǒng)中的大部分結(jié)點(diǎn)都部署了SUSE操作系統(tǒng),少量結(jié)點(diǎn)部署windows server 2008 R2虛擬機(jī)。CST2011頭結(jié)點(diǎn)僅僅分發(fā)作業(yè),并不承擔(dān)計(jì)算任務(wù),負(fù)載較輕,虛擬機(jī)即可勝任。單個(gè)物理結(jié)點(diǎn)上部署多個(gè)虛擬機(jī),節(jié)約投資。
在有限的預(yù)算內(nèi),曙光還配備了202塊NVIDIA Tesla C2050 GPU卡,使CPU與GPU的數(shù)量達(dá)到1:1的最佳比例。每個(gè)主板上掛載兩顆GPU,這兩顆GPU之間的通信不必通過網(wǎng)絡(luò)交換機(jī),使用本地內(nèi)存即可完成,大大減少了通信開銷,提高應(yīng)用的擴(kuò)展性。
當(dāng)GPU跨結(jié)點(diǎn)并行時(shí),通信開銷往往成為性能提升的瓶頸。為此,曙光GPU高性能解決方案配置高帶寬低延時(shí)的InfiniBand QDR網(wǎng)絡(luò)互聯(lián)設(shè)備,任意結(jié)點(diǎn)之間都能達(dá)到全線速40Gbps。采用極高密度的曙光GPU服務(wù)器,在1U空間實(shí)現(xiàn)兩顆CPU+兩顆GPU的計(jì)算能力,使光啟研究院有效節(jié)省機(jī)房面積,卻更快的提高了計(jì)算能力與計(jì)算速度。
在光啟研究院項(xiàng)目準(zhǔn)備、實(shí)施過程中,曙光公司做了大量的定制研發(fā),尤其是面對(duì)作業(yè)調(diào)度系統(tǒng)整合、極高密度GPU服務(wù)時(shí),充分體現(xiàn)出多年深耕高性能計(jì)算的實(shí)力。曙光從單一服務(wù)器硬件供應(yīng)商向“信息服務(wù)供應(yīng)商”的轉(zhuǎn)型之路,漸行漸近。