登錄
微信登錄
打開手機(jī)微信,掃描二維碼
掃描成功
請勿刷新本頁面,按手機(jī)提示操作
中科曙光不會以任何理由要求您轉(zhuǎn)賬匯款,謹(jǐn)防詐騙
您的微信還未注冊
中科曙光不會以任何理由要求您轉(zhuǎn)賬匯款,謹(jǐn)防詐騙
您可以同時(shí)關(guān)注中科曙光微信公眾號
使用微信掃一掃即可登錄! 查閱資料更方便、 快捷!
您已經(jīng)注冊賬號和
關(guān)注微信公眾號
2025年1月
服務(wù)熱線:400-810-0466
發(fā)布時(shí)間: 2017-11-23
經(jīng)過多年的信息化建設(shè),企事業(yè)單位已經(jīng)積累了大量的數(shù)據(jù)。但目前數(shù)據(jù)中心在構(gòu)建時(shí)仍大多采用傳統(tǒng)的技術(shù)手段,如集中式服務(wù)器構(gòu)建,數(shù)據(jù)處理以單節(jié)點(diǎn)模式為主,缺少實(shí)際并行計(jì)算處理能力。這導(dǎo)致數(shù)據(jù)中心無法對海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效存儲、處理及分析,以及提供大數(shù)據(jù)環(huán)境下全訪問、全類型的數(shù)據(jù)存儲及處理服務(wù)和為企業(yè)數(shù)據(jù)資產(chǎn)深度分析挖掘提供數(shù)據(jù)支撐。
為解決以上問題,曙光開發(fā)了基于大數(shù)據(jù)技術(shù)的全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心數(shù)據(jù)分析平臺,以充分發(fā)揮大數(shù)據(jù)技術(shù)在數(shù)據(jù)存儲、并行計(jì)算、大規(guī)模數(shù)據(jù)分析挖掘、線性擴(kuò)展、全類型數(shù)據(jù)支撐等方面的優(yōu)勢。
五大層次支撐總體架構(gòu)
根據(jù)信息系統(tǒng)以及數(shù)據(jù)現(xiàn)狀的調(diào)研分析,曙光設(shè)計(jì)了基于大數(shù)據(jù)技術(shù)的全業(yè)務(wù)數(shù)據(jù)中心數(shù)據(jù)分析平臺的總體架構(gòu),包括數(shù)據(jù)接入、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、統(tǒng)一分析服務(wù)、系統(tǒng)管理五個(gè)層次。
總體架構(gòu)圖
數(shù)據(jù)接入層主要實(shí)現(xiàn)數(shù)據(jù)的采集接入和清洗轉(zhuǎn)換兩個(gè)功能。采集接入主要是將數(shù)據(jù)從各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)源和外部環(huán)境數(shù)據(jù)導(dǎo)入到統(tǒng)一分析存儲系統(tǒng)中;數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的一道程序,針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行清理,使臟數(shù)據(jù)變成干凈數(shù)據(jù),有利于后續(xù)的統(tǒng)計(jì)分析得出可靠結(jié)論。
數(shù)據(jù)存儲層采用分布式文件系統(tǒng)存儲方式,將數(shù)據(jù)存儲總體上劃分為緩沖區(qū)、統(tǒng)一視圖、數(shù)據(jù)倉庫、數(shù)據(jù)集市、實(shí)時(shí)采集、熱點(diǎn)數(shù)據(jù)6個(gè)部分。
數(shù)據(jù)計(jì)算層提供分布式運(yùn)行引擎和協(xié)同計(jì)算功能,及離線計(jì)算、實(shí)時(shí)計(jì)算等能力,可滿足各類業(yè)務(wù)應(yīng)用不同時(shí)效性數(shù)據(jù)計(jì)算需求。
統(tǒng)一分析服務(wù)層為業(yè)務(wù)人員提供數(shù)據(jù)挖掘工具和自助式分析服務(wù),以滿足易用、快速、靈活拖拽的業(yè)務(wù)報(bào)表和大數(shù)據(jù)挖掘應(yīng)用,同時(shí)提供數(shù)據(jù)路由、數(shù)據(jù)網(wǎng)關(guān)等功能,實(shí)現(xiàn)對外提供統(tǒng)一的數(shù)據(jù)服務(wù)及展現(xiàn)服務(wù)。
該系統(tǒng)通過標(biāo)準(zhǔn)化分析數(shù)據(jù)接口及數(shù)據(jù)跨庫查詢服務(wù)等功能建設(shè),實(shí)現(xiàn)基于數(shù)據(jù)跨庫查詢服務(wù)的多查詢、多表或視圖聯(lián)接合并機(jī)制。如圖所示,提供具備數(shù)據(jù)模型定義可配置、數(shù)據(jù)發(fā)布快速等特性的數(shù)據(jù)接口服務(wù),從而促進(jìn)業(yè)務(wù)應(yīng)用系統(tǒng)與統(tǒng)一分析服務(wù)間的標(biāo)準(zhǔn)化集成,支撐全業(yè)務(wù)數(shù)據(jù)中心統(tǒng)一分析服務(wù)組件建設(shè)。
四大優(yōu)勢全方位保障平臺運(yùn)行
該系統(tǒng)采用Hadoop生態(tài)體系與自主研發(fā)的MPP并行數(shù)據(jù)庫解析技術(shù),解決了傳統(tǒng)數(shù)據(jù)中心擴(kuò)展性差,建設(shè)成本高、數(shù)據(jù)存儲、計(jì)算處理及分析挖掘能力有限等問題。
在數(shù)據(jù)集成方面,支持非實(shí)時(shí)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的全量接入,并能對數(shù)據(jù)中心的所有的數(shù)據(jù)集成任務(wù)進(jìn)行調(diào)度及作業(yè)監(jiān)控。
在數(shù)據(jù)存儲方面,基于混合架構(gòu)存放不同性質(zhì)的數(shù)據(jù),并提供了不同的數(shù)據(jù)服務(wù)。
在分析服務(wù)方面,提供了指標(biāo)多維分析與固定報(bào)表展示功能,以及數(shù)據(jù)挖掘模型的管理、訓(xùn)練、評估及發(fā)布等,并通過批量數(shù)據(jù)服務(wù)、異步數(shù)據(jù)推送、數(shù)據(jù)實(shí)時(shí)服務(wù)等方式,為外圍系統(tǒng)提供數(shù)據(jù)支撐。
在系統(tǒng)管理方面,通過研發(fā)數(shù)據(jù)管理平臺實(shí)現(xiàn)了元數(shù)據(jù)管理、系統(tǒng)監(jiān)控、接口監(jiān)控、運(yùn)行調(diào)度、運(yùn)維輔助等功能。
此外,該系統(tǒng)克服了傳統(tǒng)技術(shù)擴(kuò)展性不強(qiáng)、建設(shè)成本高、計(jì)算處理及分析挖掘能力有限的缺點(diǎn),能滿足企業(yè)大數(shù)據(jù)環(huán)境下對全類型數(shù)據(jù)存儲、處理、分析及應(yīng)用的需求,從而實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下全業(yè)務(wù)、全層級、全類型數(shù)據(jù)資產(chǎn)的集中整合、存儲、分析與應(yīng)用,適用于大數(shù)據(jù)集成融合分析業(yè)務(wù)場景,可廣泛應(yīng)用于能源、環(huán)境、氣象、政府等行業(yè)大數(shù)據(jù)統(tǒng)一分析應(yīng)用。