登錄
微信登錄
打開手機微信,,掃描二維碼
掃描成功
請勿刷新本頁面,,按手機提示操作
中科曙光不會以任何理由要求您轉(zhuǎn)賬匯款,謹防詐騙
您的微信還未注冊
中科曙光不會以任何理由要求您轉(zhuǎn)賬匯款,,謹防詐騙
您可以同時關(guān)注中科曙光微信公眾號
使用微信掃一掃即可登錄,! 查閱資料更方便、 快捷,!
您已經(jīng)注冊賬號和
關(guān)注微信公眾號
2025年1月
服務熱線:400-810-0466
發(fā)布時間: 2013-02-02
相信很多人都對傳說中的“隱身衣”有著不同尋常的好奇,,這種只存在《哈利波特》中的魔法寶物是真的嗎,?“隱身衣”到底是大自然的奇跡,還是科學的力量,?深圳光啟高等理工研究院(以下簡稱光啟研究院)劉若鵬院長告訴記者:“隱身衣”是一種超材料技術(shù)研制,、通過引導微波“轉(zhuǎn)向”防止物體被“發(fā)現(xiàn)”的科學產(chǎn)物。
光啟研究院自2010年7月揭牌成立后,,吸引了多個國家和地區(qū)的杰出科學家,,在充滿活力的交叉學科合作中,建立起具有廣闊國際視角的科研環(huán)境,。不到兩年的時間內(nèi),,光啟研究院已經(jīng)成為中國超材料技術(shù)的領軍企業(yè)。
2011年,,光啟研究院全面啟動超材料制備與封裝技術(shù)重點實驗室等5個重點實驗室和超穎射頻技術(shù)工程實驗室等6個工程實驗室的建設,,在光啟的實驗室中,曙光GPU解決方案通過跨越“三重門”,,成為集群管理成功的關(guān)鍵,。
三重考驗 挑戰(zhàn)集群管理操作能力
因為研發(fā)需要,光啟研究院GPU集群所承擔的大部分科研工作需要使用CST Microwave studio2011,、 COMSOL 4.2和MATLAB三個軟件作大規(guī)模計算,,三個軟件對集群的要求各具特色:
可用的CST Microwave Studio 2011版本在分布式計算時,要求頭結(jié)點必須是Windows Server 2008 R2 操作系統(tǒng),,計算結(jié)點必須是LLinux系統(tǒng),。CST2011可以使用GPU加速,單結(jié)點可以掛載多顆GPU,;自帶MPI通信工具,;自帶作業(yè)調(diào)試器。
而COMSOL4.2有兩類使用,,單個大作業(yè),、多個小作業(yè)。計算時需要調(diào)用MATLAB,,因此需要將MATLAB與COMSOL配置正確,,以使協(xié)同工作。
MATLAB 2011b 則需要支持GPU加速,,同時支持分布式并行計算,,自帶作業(yè)調(diào)度工具,,客戶端不必登錄服務器就可以提交作業(yè)、查看結(jié)果,。
面對三個大型軟件同時工作時,,普通的GPU根本無法滿足如此大規(guī)模的計算,往往會陷入崩潰的狀況,。針對光啟研究院的特別需求,,曙光公司迎難而上,制定了一整套GPU解決方案,。
一個集群管理軟件GridviewGridview PK多個工作調(diào)度
要滿足光啟研究院的需求,,既要整合三個軟件到同一個作業(yè)調(diào)度系統(tǒng)之中,又要避免三個軟件使用各自調(diào)度器帶來的資源競爭和資源閑置,。這是一個極具挑戰(zhàn)性的任務,,必須深入了解這兩款商業(yè)的軟件的架構(gòu),實現(xiàn)無縫融合,,讓軟件用戶感覺不到作業(yè)調(diào)試系統(tǒng)的改變,。
為此,曙光公司研發(fā)人員認真研究了光啟的應用需求,。光啟研究院的科學家是超材料的專家,,卻不是IT專家,怎樣讓他們不必登錄集群,、不必學習LLinux命令,,只需打開瀏覽器就可以直觀地提交作業(yè)、查看計算結(jié)果呢,?光啟近二百位科學家?guī)缀趺刻於荚谑褂眉?,而且運算能力越高越好,就需要GPU越多越好,;光啟的機房剩余空間不多,必須提供計算能力密集的服務器,;還要考慮同時配置Windows結(jié)點和Linux結(jié)點,,以便使用CST2011,兩類結(jié)點要統(tǒng)一調(diào)度,;而且單個作業(yè)需要使用多顆GPU,,GPU間通信需要高速互聯(lián)網(wǎng)絡……
最終,曙光公司決定使用集群管理軟件Gridview中的作業(yè)調(diào)度模塊替代CST2011和MATLAB 2011b 自帶的作業(yè)調(diào)度工具,,實現(xiàn)作業(yè)的統(tǒng)一調(diào)度,。曙光公司集群管理軟件Gridview支持定制開發(fā)portal,集群管理員可以快速開發(fā)出特定應用軟件的portal,。
而且曙光提供的GPU高性能解決方案系統(tǒng)中的大部分結(jié)點都部署了SUSE操作系統(tǒng),,少量結(jié)點部署windows server 2008 R2虛擬機,。CST2011頭結(jié)點僅僅分發(fā)作業(yè),并不承擔計算任務,,負載較輕,,虛擬機即可勝任。單個物理結(jié)點上部署多個虛擬機,,節(jié)約投資,。
在有限的預算內(nèi),曙光還配備了202塊NVIDIA Tesla C2050 GPU卡,,使CPU與GPU的數(shù)量達到1:1的最佳比例,。每個主板上掛載兩顆GPU,這兩顆GPU之間的通信不必通過網(wǎng)絡交換機,,使用本地內(nèi)存即可完成,,大大減少了通信開銷,提高應用的擴展性,。
當GPU跨結(jié)點并行時,,通信開銷往往成為性能提升的瓶頸。為此,,曙光GPU高性能解決方案配置高帶寬低延時的InfiniBand QDR網(wǎng)絡互聯(lián)設備,,任意結(jié)點之間都能達到全線速40Gbps。采用極高密度的曙光GPU服務器,,在1U空間實現(xiàn)兩顆CPU+兩顆GPU的計算能力,,使光啟研究院有效節(jié)省機房面積,卻更快的提高了計算能力與計算速度,。
在光啟研究院項目準備,、實施過程中,曙光公司做了大量的定制研發(fā),,尤其是面對作業(yè)調(diào)度系統(tǒng)整合,、極高密度GPU服務時,充分體現(xiàn)出多年深耕高性能計算的實力,。曙光從單一服務器硬件供應商向“信息服務供應商”的轉(zhuǎn)型之路,,漸行漸近。