• IIANews微官網
    掃描二維碼 進入微官網
    IIANews微信
    掃描二維碼 關注微信
    移動客戶端
2019中國智能制造發展論壇 菲尼克斯電氣Radioline無線系統
工業無線

【大數據】大數據參考架構和關鍵技術(綜合)

  2018年11月30日  

  1、大數據參考架構

  大數據作為一種新興技術,目前尚未形成完善、達成共識的技術標準體系。本文結合NIST和JTC1/SC32的研究成果,結合我們對大數據的理解和分析,提出了大數據參考架構。

  大數據參考架構圖

  大數據參考架構總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數據參考架構中使用的概念提供了一個構件層級分類體系,即“角色—活動—功能組件”,用于描述參考架構中的邏輯構件及其關系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數據作為一種新興的數據應用范式對IT技術產生的新需求所帶來的價值,“信息價值鏈”反映的是大數據作為一種數據科學方法論對數據到知識的處理過程中所實現的信息流價值。這些內涵在大數據參考模型圖中得到了體現。

  大數據參考架構是一個通用的大數據系統概念模型。它表示了通用的、技術無關的大數據系統的邏輯功能構件及構件之間的互操作接口,可以作為開發各種具體類型大數據應用系統架構的通用技術參考框架。其目標是建立一個開放的大數據技術參考架構,使系統工程師、數據科學家、軟件開發人員、數據架構師和高級決策者,能夠在可以互操作的大數據生態系統中制定一個解決方案,解決由各種大數據特征融合而帶來的需要使用多種方法的問題。它提供了一個通用的大數據應用系統框架,支持各種商業環境,包括緊密集成的企業系統和松散耦合的垂直行業,有助于理解大數據系統如何補充并有別于已有的分析、商業智能、數據庫等傳統的數據應用系統。

  大數據參考架構采用構件層級結構來表達大數據系統的高層概念和通用的構件分類法。從構成上看,大數據參考架構是由一系列在不同概念層級上的邏輯構件組成的。這些邏輯構件被劃分為三個層級,從高到低依次為角色、活動和功能組件。最頂層級的邏輯構件是角色,包括系統協調者、數據提供者、大數據應用提供者、大數據框架提供者、數據消費者、安全和隱私、管理。第二層級的邏輯構件是每個角色執行的活動。第三層級的邏輯構件是執行每個活動需要的功能組件。

  大數據參考架構圖的整體布局按照代表大數據價值鏈的兩個維度來組織,即信息價值鏈(水平軸)和IT價值鏈(垂直軸)。在信息價值鏈維度上,大數據的價值通過數據的收集、預處理、分析、可視化和訪問等活動來實現。在IT價值鏈維度上,大數據價值通過為大數據應用提供存放和運行大數據的網絡、基礎設施、平臺、應用工具以及其他IT服務來實現。大數據應用提供者處在兩個維的交叉點上,表明大數據分析及其實施為兩個價值鏈上的大數據利益相關者提供了價值。

  五個主要的模型構件代表在每個大數據系統中存在的不同技術角色:系統協調者、數據提供者、大數據應用提供者、大數據框架提供者和數據消費者。另外兩個非常重要的模型構件是安全隱私與管理,代表能為大數據系統其他五個主要模型構件提供服務和功能的構件。這兩個關鍵模型構件的功能極其重要,因此也被集成在任何大數據解決方案中。

  參考架構可以用于多個大數據系統組成的復雜系統(如堆疊式或鏈式系統),這樣其中一個系統的大數據使用者可以作為另外一個系統的大數據提供者。

  參考架構邏輯構件之間的關系用箭頭表示,包括三類關系:“數據”、“軟件”和“服務使用”。“數據”表明在系統主要構件之間流動的數據,可以是實際數值或引用地址。“軟件”表明在大數據處理過程中的支撐軟件工具。“服務使用”代表軟件程序接口。雖然此參考架構主要用于描述大數據實時運行環境,但也可用于配置階段。大數據系統中涉及的人工協議和人工交互沒有被包含在此參考架構中。

  (1)系統協調者

  系統協調者角色提供系統必須滿足的整體要求,包括政策、治理、架構、資源和業務需求,以及為確保系統符合這些需求而進行的監控和審計活動。系統協調者角色的扮演者包括業務領導、咨詢師、數據科學家、信息架構師、軟件架構師、安全和隱私架構師、網絡架構師等。系統協調者定義和整合所需的數據應用活動到運行的垂直系統中。系統協調者通常會涉及到更多具體角色,由一個或多個角色扮演者管理和協調大數據系統的運行。這些角色扮演者可以是人,軟件或二者的結合。系統協調者的功能是配置和管理大數據架構的其他組件,來執行一個或多個工作負載。這些由系統協調者管理的工作負載,在較低層可以是把框架組件分配或調配到個別物理或虛擬節點上,在較高層可以是提供一個圖形用戶界面來支持連接多個應用程序和組件的工作流規范。系統協調者也可以通過管理角色監控工作負載和系統,以確認每個工作負載都達到了特定的服務質量要求,還可能彈性地分配和提供額外的物理或虛擬資源,以滿足由變化/激增的數據或用戶/交易數量而帶來的工作負載需求。

  (2)數據提供者

  數據提供者角色為大數據系統提供可用的數據。數據提供者角色的扮演者包括企業、公共代理機構、研究人員和科學家、搜索引擎、Web/FTP和其他應用、網絡運營商、終端用戶等。在一個大數據系統中,數據提供者的活動通常包括采集數據、持久化數據、對敏感信息進行轉換和清洗、創建數據源的元數據及訪問策略、訪問控制、通過軟件的可編程接口接口實現推或拉式的數據訪問、發布數據可用及訪問方法的信息等。

  數據提供者通常需要為各種數據源(原始數據或由其它系統預先轉換的數據)創建一個抽象的數據源,通過不同的接口提供發現和訪問數據功能。這些接口通常包括一個注冊表,使得大數據應用程序能夠找到數據提供者、確定包含感興趣的數據、理解允許訪問的類型、了解所支持的分析類型、定位數據源、確定數據訪問方法、識別數據安全要求、識別數據保密要求以及其他相關信息。因此,該接口將提供注冊數據源、查詢注冊表、識別注冊表中包含標準數據集等功能。

  針對大數據的4V特性和系統設計方面的考慮,暴露和訪問數據的接口需要根據變化的復雜性采用推和拉兩種軟件機制。這兩種軟件機制包括訂閱事件、監聽數據饋送、查詢特定數據屬性或內容,以及提交一段代碼來執行數據處理功能。由于需要考慮大數據量跨網絡移動的經濟性,接口還可以允許提交分析請求(例如,執行一段實現特定算法的軟件代碼),只把結果返回給請求者。數據訪問可能不總是自動進行,可以讓人類角色登錄到系統提供新數據應傳送的方式(例如,基于數據饋送建立訂閱電子郵件)。

  (3)大數據應用提供者

  大數據應用提供者在數據的生命周期中執行一系列操作,以滿足系統協調者建立的系統要求及安全和隱私要求。大數據應用提供者通過把大數據框架中的一般性資源和服務能力相結合,把業務邏輯和功能封裝成架構組件,構造出特定的大數據應用系統。大數據應用提供者角色的扮演者包括應用程序專家、平臺專家、咨詢師等。大數據應用提供者角色執行的活動包括數據的收集、預處理、分析、可視化和訪問。

  大數據應用程序提供者可以是單個實例,也可以是一組更細粒度大數據應用提供者實例的集合,集合中的每個實例執行數據生命周期中的不同活動。每個大數據應用提供者的活動可能是由系統協調者、數據提供者或數據消費者調用的一般服務,如Web服務器、文件服務器、一個或多個應用程序的集合或組合。每個活動可以由多個不同實例執行,或者單個程序也可能執行多個活動。每個活動都能夠與大數據框架提供者、數據提供者以及數據消費者交互。這些活動可以并行執行,也可以按照任意的數字順序執行,活動之間經常需要通過大數據框架提供者的消息和通信框架進行通信。大數據應用提供者執行的活動和功能,特別是數據收集和數據訪問活動,需要與安全和隱私角色進行交互,執行認證/授權并記錄或維護數據的出處。

  收集活動用于處理與數據提供者的接口。它可以是一般服務,如由系統協調者配置的用于接收或執行數據收集任務的文件服務器或Web服務器;也可以是特定于應用的服務,如用來從數據提供者拉數據或接收數據提供者推送數據的服務。收集活動執行的任務類似于ETL的抽取(extraction)環節。收集活動接收到的數據通常需要大數據框架提供者的處理框架來執行內存隊列緩存或其他數據持久化服務。

  預處理活動執行的任務類似于ETL的轉換(transformation)環節,包括數據驗證、清洗、去除異常值、標準化、格式化或封裝。預處理活動也是大數據框架提供者歸檔存儲的數據來源,這些數據的出處信息一般也要被驗證并附加到數據存儲中。預處理活動也可能聚集來自不同的數據提供者的數據,利用元數據鍵來創建一個擴展的和增強的數據集。

  分析活動的任務是實現從數據中提取出知識。這需要有特定的數據處理算法對數據進行處理,以便從數據中得出能夠解決技術目標的新洞察。分析活動包括對大數據系統低級別的業務邏輯進行編碼(更高級別的業務流程邏輯由系統協調者進行編碼),它利用大數據框架提供者的處理框架來實現這些關聯的邏輯,通常會涉及到在批處理或流處理組件上實現分析邏輯的軟件。分析活動還可以使用大數據框架提供者的消息和通信框架在應用邏輯中傳遞數據和控制功能。

  可視化活動的任務是將分析活動結果以最利于溝通和理解知識的方式展現給數據消費者。可視化的功能包括生成基于文本的報告或者以圖形方式渲染分析結果。可視化的結果可以是靜態的,存儲在大數據框架提供者中供以后訪問。更多的情況下,可視化活動經常要與數據消費者、大數據分析活動以及大數據提供者的處理框架和平臺進行交互,這就需要基于數據消費者設置的數據訪問參數來提供交互式可視化手段。可視化活動可以完全由應用程序實現,也可以使用大數據框架提供者提供的專門的可視化處理框架實現。

  訪問活動主要集中在與數據消費者的通信和交互。與數據收集活動類似,訪問活動可以是由系統協調者配置的一般服務,如Web服務器或應用服務器,用于接受數據消費者請求。訪問活動還可以作為可視化活動、分析活動的界面來響應數據消費者的請求,并使用大數據框架提供者的處理框架和平臺來檢索數據,向數據消費者請求作出響應。此外,訪問活動還要確保為數據消費者提供描述性和管理性元數據,并把這些元數據作為數據傳送給數據消費者。訪問活動與數據消費者的接口可以是同步或異步的,也可以使用拉或推軟件機制進行數據傳輸。

  (4)大數據框架提供者

  大數據框架提供者角色為大數據應用提供者在創建特定的大數據應用系統時提供一般資源和服務能力。大數據框架提供者的角色扮演者包括數據中心、云提供商、自建服務器集群等。大數據框架提供者執行的活動和功能包括提供基礎設施(物理資源、虛擬資源)、數據平臺(文件存儲、索引存儲)、處理框架(批處理、交互、流處理)、消息和通信框架、資源管理等。

  基礎設施為其他角色執行活動提供存放和運行大數據系統所需要的資源。通常情況下,這些資源是物理資源的某種組合,用來支持相似的虛擬資源。資源一般可以分為網絡、計算、存儲和環境。網絡資源負責數據在基礎設施組件之間的傳送;計算資源包括物理處理器和內存,負責執行和保持大數據系統其他組件的軟件;存儲資源為大數據系統提供數據持久化能力;環境資源是在考慮建立大數據系統時需要的實體工廠資源,如供電、制冷等。

  數據平臺通過相關的應用編程接口(API)或其他方式,提供數據的邏輯組織和分發服務。它也可能提供數據注冊、元數據以及語義數據描述等服務。邏輯數據組織的范圍涵蓋從簡單的分隔符平面文件到完全分布式的關系存儲或列存儲。數據訪問方式可以是文件存取API或查詢語言(如SQL)。通常情況下,實現的大數據系統既能支持任何基本的文件系統存儲,也支持內存存儲、索引文件存儲等方式。

  處理框架提供必要的基礎軟件以支持實現的應用能夠處理具有4V特征的大數據。處理框架定義了數據的計算和處理是如何組織的。大數據應用依賴于各種平臺和技術,以應對可擴展的數據處理和分析的挑戰。處理框架一般可以分為批處理(batch)、流處理(streaming)和交互式(interactive)三種類型。

  消息和通信框架為可水平伸縮的集群的結點之間提供可靠隊列、傳輸、數據接收等功能。它通常有2種實現模式,即點對點(point-to-point)模式和存儲-轉發(store-and-forward)模式。點對點模式不考慮消息的恢復問題,數據直接從發送者傳送給接收者。存儲-轉發模式提供消息持久化和恢復機制,發送者把數據發送給中介代理,中介代理先存儲消息然后再轉發給接收者。

  資源管理活動負責解決由于大數據的數據量和速度特征而帶來的對CPU、內存、I/O等資源管理問題。有兩種不同的資源管理方式,分別是框架內(intra-framework)資源管理和框架間(inter-framework)資源管理。框架內資源管理負責框架自身內部各組件之間的資源分配,由框架負載驅動,通常會為了最小化框架整體需求或降低運行成本而關閉不需要的資源。

  框架間資源管理負責大數據系統多個存儲框架和處理框架之間的資源調度和優化管理,通常包括管理框架的資源請求、監控框架資源使用,以及在某些情況下對申請使用資源的應用隊列進行管理等。特別的,針對大數據系統負載多變、用戶多樣、規模較大的特點,應采用更加經濟有效的資源構架和管理方案。目前的大數據軟件框架,其亮點在于高可擴展性,而本質訴求仍然是如何實現并行化,即對數據進行分片、并為每一個分片分配相應的本地計算資源。

  因此,對于基礎架構而言,為了支持大數據軟件框架,最直接的實現方式就是將一份計算資源和一份存儲資源進行綁定,構成一個資源單位(如,服務器),以獲得盡可能高的本地數據訪問性能。但是,這種基礎架構由于計算同存儲之間緊耦合且比例固定,逐漸暴露出資源利用率低、重構時靈活性差等問題。因此,未來應通過硬件及軟件各方面的技術創新,在保證本地數據訪問性能的同時,實現計算與存儲資源之間的松耦合,即:可以按需調配整個大數據系統中的資源比例,及時適應當前業務對計算和存儲的真實需要;同時,可以對系統的計算部分進行快速切換,真正滿足數據技術(DT)時代對“以數據為中心、按需投入計算”的業務要求。

  (5)數據消費者

  數據消費者角色接收大數據系統的輸出。與數據提供者類似,數據消費者可以是終端用戶或者其它應用系統。數據消費者執行的活動通常包括搜索/檢索、下載、本地分析、生成報告、可視化等。數據消費者利用大數據應用提供者提供的界面或服務訪問他感興趣的信息,這些界面包括數據報表、數據檢索、數據渲染等。

  數據消費者角色也會通過數據訪問活動與大數據應用提供者交互,執行其提供的數據分析和可視化功能。交互可以是基于需要(demand-based)的,包括交互式可視化、創建報告,或者利用大數據提供者提供的商務智能(BI)工具對數據進行鉆取(drill-down)操作等。交互功能也可以是基于流處理(streaming-based)或推(push-based)機制的,這種情況下消費者只需要訂閱大數據應用系統的輸出即可。

  (6)安全和隱私

  在大數據參考架構圖中,安全和隱私角色覆蓋了其它五個主要角色,即系統協調者、數據提供者、大數據框架提供者、大數據應用提供者、數據消費者,表明這五個主要角色的活動都要受到安全和隱私角色的影響。安全和隱私角色處于管理角色之中,也意味著安全和隱私角色與大數據參考架構中的全部活動和功能都相互關聯。在安全和隱私管理模塊,通過不同的技術手段和安全措施,構筑大數據系統全方位、立體的安全防護體系,同時應提供一個合理的災備框架,提升災備恢復能力,實現數據的實時異地容災功能。

  (7)管理

  管理角色包括二個活動組:系統管理和大數據生命周期管理。系統管理活動組包括調配、配置、軟件包管理、軟件管理、備份管理、能力管理、資源管理和大數據基礎設施的性能管理等活動。大數據生命周期管理涵蓋了大數據生命周期中所有的處理過程,其活動和功能是驗證數據在生命周期的每個過程是否都能夠被大數據系統正確地處理。

  由于大數據基礎設施的分布式和復雜性,系統管理依賴于兩點:使用標準的協議如SNMP把資源狀態和出錯信息傳送給管理組件;通過可部署的代理或管理連接子(connector)允許管理角色監視甚至控制大數據處理框架元素。系統管理的功能是監視各種計算資源的運行狀況,應對出現的性能或故障事件,從而能夠滿足大數據應用提供者的服務質量(QoS)需求。在云服務提供商提供能力管理接口時,通過管理連接子對云基礎設施提供的自助服務、自我調整、自我修復等能力進行利用和管理。大型基礎設施通常包括數以千計的計算和存儲節點,因此應用程序和工具的調配應盡可能自動化。軟件安裝、應用配置以及補丁維護也應該以自動的方式推送到各結點并實現自動地跨結點復制。

  還可以利用虛擬化技術的虛擬映像,加快恢復進程和提供有效的系統修補,以最大限度地減少定期維護時的停機時間。系統管理模塊應能夠提供統一的運維管理,能夠對包括數據中心、基礎硬件、平臺軟件(存儲、計算)和應用軟件進行集中運維、統一管理,實現安裝部署、參數配置、系統監控等功能。應提供自動化運維的能力,通過對多個數據中心的資源進行統一管理,合理的分配和調度業務所需要的資源,做到自動化按需分配。同時提供對多個數據中心的IT基礎設施進行集中運維的能力,自動化監控數據中心內各種IT設備的事件、告警、性能,實現從業務維度來進行運維的能力。

  大數據生命周期管理活動負責驗證數據在生命周期中的每個過程是否都能夠被大數據系統正確地處理,它覆蓋了數據從數據提供者那里被攝取到系統,一直到數據被處理或從系統中刪除的整個生命周期。由于大數據生命周期管理的任務可以分布在大數據計算環境中的不同組織和個體,從遵循政策、法規和安全要求的視角,大數據生命周期管理包括以下活動或功能:政策管理(數據遷移及處置策略)、元數據管理(管理數據標識、質量、訪問權限等元數據信息)、可訪問管理(依據時間改變數據的可訪問性)、數據恢復(災難或系統出錯時對數據進行恢復)、保護管理(維護數據完整性)。從大數據系統要應對大數據的4V特征來看,大數據生命周期管理活動和功能還包括與系統協調者、數據提供者、大數據框架提供者、大數據應用提供者、數據消費者以及安全和隱私角色之間的交互。

  2、大數據關鍵技術

  數據收集

  大數據時代,數據的來源極其廣泛,數據有不同的類型和格式,同時呈現爆發性增長的態勢,這些特性對數據收集技術也提出了更高的要求。數據收集需要從不同的數據源實時的或及時的收集不同類型的數據并發送給存儲系統或數據中間件系統進行后續處理。數據收集一般可分為設備數據收集和Web數據爬取兩類,常常用的數據收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網絡爬蟲,如Heritrix、Nutch等。

  數據預處理

  數據的質量對數據的價值大小有直接影響,低質量數據將導致低質量的分析和挖掘結果。廣義的數據質量涉及許多因素,如數據的準確性、完整性、一致性、時效性、可信性與可解釋性等。

  大數據系統中的數據通常具有一個或多個數據源,這些數據源可以包括同構/異構的(大)數據庫、文件系統、服務接口等。這些數據源中的數據來源現實世界,容易受到噪聲數據、數據值缺失與數據沖突等的影響。此外數據處理、分析、可視化過程中的算法與實現技術復雜多樣,往往需要對數據的組織、數據的表達形式、數據的位置等進行一些前置處理。

  數據預處理的引入,將有助于提升數據質量,并使得后繼數據處理、分析、可視化過程更加容易、有效,有利于獲得更好的用戶體驗。數據預處理形式上包括數據清理、數據集成、數據歸約與數據轉換等階段。

  數據清理技術包括數據不一致性檢測技術、臟數據識別技術、數據過濾技術、數據修正技術、數據噪聲的識別與平滑技術等。

  數據集成把來自多個數據源的數據進行集成,縮短數據之間的物理距離,形成一個集中統一的(同構/異構)數據庫、數據立方體、數據寬表與文件等。

  數據歸約技術可以在不損害挖掘結果準確性的前提下,降低數據集的規模,得到簡化的數據集。歸約策略與技術包括維歸約技術、數值歸約技術、數據抽樣技術等。

  經過數據轉換處理后,數據被變換或統一。數據轉換不僅簡化處理與分析過程、提升時效性,也使得分析挖掘的模式更容易被理解。數據轉換處理技術包括基于規則或元數據的轉換技術、基于模型和學習的轉換技術等。

  數據存儲

  分布式存儲與訪問是大數據存儲的關鍵技術,它具有經濟、高效、容錯好等特點。分布式存儲技術與數據存儲介質的類型和數據的組織管理形式直接相關。目前的主要數據存儲介質類型包括內存、磁盤、磁帶等;主要數據組織管理形式包括按行組織、按列組織、按鍵值組織和按關系組織;主要數據組織管理層次包括按塊級組織、文件級組織以及數據庫級組織等。

  不同的存儲介質和組織管理形式對應于不同的大數據特征和應用特點。

  (1)分布式文件系統

  分布式文件系統是由多個網絡節點組成的向上層應用提供統一的文件服務的文件系統。分布式文件系統中的每個節點可以分布在不同的地點,通過網絡進行節點間的通信和數據傳輸。分布式文件系統中的文件在物理上可能被分散存儲在不同的節點上,在邏輯上仍然是一個完整的文件。使用分布式文件系統時,無需關心數據存儲在哪個節點上,只需像本地文件系統一樣管理和存儲文件系統的數據。

  分布式文件系統的性能與成本是線性增長的關系,它能夠在信息爆炸時代有的效解決數據的存儲和管理。分布式文件系統在大數據領域是最基礎的,最核心的功能組件之一,如何實現一個高擴展,高性能,高可用的分布式文件系統是大數據領域最關鍵的問題之一。目前常用的分布式磁盤文件系統有 HDFS(Hadoop分布式文件系統)、GFS(Goolge分布式文件系統)、KFS(Kosmos distributed file system)等;常用的分布式內存文件系統有Tachyon等。

  (2)文檔存儲

  文檔存儲支持對結構化數據的訪問,不同于關系模型的是,文檔存儲沒有強制的架構。事實上,文檔存儲以封包鍵值對的方式進行存儲。在這種情況下,應用對要檢索的封包采取一些約定,或者利用存儲引擎的能力將不同的文檔劃分成不同的集合,以管理數據。

  與關系模型不同的是,文檔存儲模型支持嵌套結構。例如,文檔存儲模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲其它文檔。文檔存儲模型也支持數組和列值鍵。與鍵值存儲不同的是,文檔存儲關心文檔的內部結構。這使得存儲引擎可以直接支持二級索引,從而允許對任意字段進行高效查詢。支持文檔嵌套存儲的能力,使得查詢語言具有搜索嵌套對象的能力,XQuery就是一個例子。主流的文檔數據庫有MongoDB、CouchDB、Terrastore、RavenDB等。

  (3)列式存儲

  列式存儲將數據按行排序,按列存儲,將相同字段的數據作為一個列族來聚合存儲。當只查詢少數列族數據時,列式數據庫可以減少讀取數據量,減少數據裝載和讀入讀出的時間,提高數據處理效率。按列存儲還可以承載更大的數據量,獲得高效的垂直數據壓縮能力,降低數據存儲開銷。使用列式存儲的數據庫產品有傳統的數據倉庫產品,如Sybase IQ、InfiniDB、Vertica等,也有開源的數據庫產品,如Hadoop Hbase、Infobright等。

  (4)鍵值存儲

  鍵值存儲,即Key-Value存儲,簡稱KV存儲,它是NoSQL存儲的一種方式。它的數據按照鍵值對的形式進行組織、索引和存儲。KV存儲非常適合不涉及過多數據關系和業務關系的業務數據,同時能有效減少讀寫磁盤的次數,比SQL數據庫存儲擁有更好的讀寫性能。鍵值存儲一般不提供事務處理機制。主流的鍵值數據庫產品有Redis、Apache Cassandra、Google Bigtable等。

  (5)圖形數據庫

  圖形數據庫是主要用于存儲事物及事物之間的相關關系,這些事物整體上呈現復雜的網絡關系,可以簡單的稱之為圖形數據。使用傳統的關系數據庫技術已經無法很好的滿足超大量圖形數據的存儲、查詢等需求,比如上百萬或上千萬個節點的圖形關系,而圖形數據庫采用不同的技術來很好的解決圖形數據的查詢,遍歷,求最短路徑等需求。在圖形數據庫領域,有不同的圖模型來映射這些網絡關系,比如超圖模型,以及包含節點、關系及屬性信息的屬性圖模型等。圖形數據庫可用于對真實世界的各種對象進行建模,如社交圖譜,以反應這些事物之間的相互關系。主流的圖形數據庫有Google Pregel、Neo4j、Infinite Graph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。

  (6)關系數據庫

  關系模型是最傳統的數據存儲模型,它使用記錄(由元組組成)按行進行存儲,記錄存儲在表中,表由架構界定。表中的每個列都有名稱和類型,表中的所有記錄都要符合表的定義。SQL是專門的查詢語言,提供相應的語法查找符合條件的記錄,如表聯接(Join)。表聯接可以基于表之間的關系在多表之間查詢記錄。表中的記錄可以被創建和刪除,記錄中的字段也可以單獨更新。關系模型數據庫通常提供事務處理機制,這為涉及多條記錄的自動化處理提供了解決方案。對不同的編程語言而言,表可以被看成數組、記錄列表或者結構。表可以使用B樹和哈希表進行索引,以應對高性能訪問。

  傳統的關系型數據庫廠商結合其它技術改進關系型數據庫,比如分布式集群、列式存儲,支持XML,Json等數據的存儲。

  (7)內存存儲

  內存存儲是指內存數據庫(MMDB)將數據庫的工作版本放在內存中,由于數據庫的操作都在內存中進行,從而磁盤I/O不再是性能瓶頸,內存數據庫系統的設計目標是提高數據庫的效率和存儲空間的利用率。內存存儲的核心是內存存儲管理模塊,其管理策略的優劣直接關系到內存數據庫系統的性能。基于內存存儲的內存數據庫產品有Oracle TimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等產品。

  3、數據處理

  分布式數據處理技術一方面與分布式存儲形式直接相關,另一方面也與業務數據的溫度類型(冷數據、熱數據)相關。目前主要的數據處理計算模型包括MapReduce計算模型、DAG計算模型、BSP計算模型等。

  (1)MapReduce分布式計算框架

  MapReduce是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。與傳統數據倉庫和分析技術相比,MapReduce 適合處理各種類型的數據,包括結構化、半結構化和非結構化數據,并且可以處理數據量為TB 和 PB 級別的超大規模數據。

  MapReduce分布式計算框架將計算任務分為大量的并行 Map和 Reduce 兩類任務,并將Map任務部署到分布式集群中的不同計算機節點上并發運行,然后由Reduce任務對所有Map任務的執行結果進行匯總,得到最后的分析結果。

  MapReduce分布式計算框架可動態增加或減少計算節點,具有很高的計算彈性,并且具備很好的任務調度能力和資源分配能力,具有很好的擴展性和容錯性。MapReduce分布式計算框架是大數據時代最為典型的,應用最廣泛的分布式運行框架之一。

  最流行的MapReduce分布式計算框架是由Hadoop實現的MapReduce框架。Hadoop MapReduce基于HDFS和HBase等存儲技術確保數據存儲的有效性,計算任務會被安排在離數據最近的節點上運行,減少數據在網絡中的傳輸開銷,同時還能夠重新運行失敗的任務。Hadoop MapReduce已經在各個行業得到了廣泛的應用,是最成熟和最流行的大數據處理技術。

  (2)分布式內存計算系統

  使用分布式共享內存進行計算可以有效的減少數據讀寫和移動的開銷,極大的提高數據處理的性能。支持基于內存的數據計算,兼容多種分布式計算框架的通用計算平臺是大數據領域所必需的重要關鍵技術。除了支持內存計算的商業工具(如SAP HANA、Oracle BigData Appliance等),Spark則是此種技術的開源實現代表,它是當今大數據領域最熱門的基于內存計算的分布式計算系統。相比傳統的Hadoop MapReduce批量計算模型,Spark使用DAG、迭代計算和內存計算的方式可以帶來一到兩個數量級的效率提升。

  (3)分布式流計算系統

  在大數據時代,數據的增長速度超過了存儲容量的增長,在不遠的將來,人們將無法存儲所有的數據,同時,數據的價值會隨著時間的流逝而不斷減少,此外,很多數據涉及用戶的隱私無法進行存儲。對數據流進行實時處理的技術獲得了人們越來越多的關注。

  數據的實時處理是一個很有挑戰性的工作,數據流本身具有持續達到、速度快且規模巨大等特點,所以需要分布式的流計算技術對數據流進行實時處理。數據流的理論及技術研究已經有十幾年的歷史,目前仍舊是研究熱點。當前得到廣泛應用的很多系統多數為支持分布式、并行處理的流計算系統,比較代表性的商用軟件包括IBM StreamBase和InfoSphere Streams,開源系統則包括Twitter Storm、Yahoo S4、Spark Streaming等。

  4、數據分析

  大數據分析技術包括已有數據信息的分布式統計分析技術,以及未知數據信息的分布式挖掘和深度學習技術。分布式統計分析技術基本都可藉由數據處理技術直接完成,分布式挖掘和深度學習技術則可以進一步細分為:

  (1)聚類

  聚類指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

  聚類是數據挖掘的主要任務之一。聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

  聚類是數據挖掘中的一個很活躍的研究領域,傳統的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網格方法和基于模型方法。傳統的聚類算法已經比較成功的解決了低維數據的聚類問題。但是由于實際應用中數據的復雜性,在處理許多問題時,現有的算法經常失效,特別是對于高維數據和大型數據的情況。數據挖掘中的聚類研究主要集中在針對海量數據的有效和實用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性數據聚類、具有混合屬性數據的聚類和非距離模糊聚類等問題是目前數據挖掘研究人員最為感興趣的方向。

  (2)分類

  分類是指在一定的有監督的學習前提下,將物體或抽象對象的集合分成多個類的過程。也可以認為,分類是一種基于訓練樣本數據(這些數據已經被預先貼上了標簽)區分另外的樣本數據標簽的過程,即另外的樣本數據應該如何貼標簽。用于解決分類問題的方法非常多,常用的分類方法主要有決策樹,貝葉斯,人工神經網絡,K-近鄰,支持向量機,邏輯回歸,隨機森林等方法。 決策樹是用于分類和預測的主要技術之一,決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規則的實例中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關系,用它來預測將來未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹的內部節點進行屬性的比較,并根據不同屬性值判斷從該節點向下的分支,在決策樹的葉節點得到結論。

  貝葉斯(Bayes)分類算法是一類利用概率統計知識進行分類的算法,如樸素貝葉斯(Naive Bayes)算法。這些算法主要利用Bayes定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。

  人工神經網絡(Artificial Neural Networks,ANN)是一種應用類似于大腦神經突觸聯接的結構進行信息處理的數學模型。在這種模型中,大量的節點(或稱“神經元”,或“單元”)之間相互聯接構成網絡,即“神經網絡”,以達到處理信息的目的。神經網絡通常需要進行訓練,訓練的過程就是網絡進行學習的過程。

  訓練改變了網絡節點的連接權的值使其具有分類的功能,經過訓練的網絡就可用于對象的識別。 目前,神經網絡已有上百種不同的模型,常見的有BP網絡、徑向基RBF網絡、Hopfield網絡、隨機神經網絡(Boltzmann機)、競爭神經網絡(Hamming網絡,自組織映射網絡)等。但是當前的神經網絡仍普遍存在收斂速度慢、計算量大、訓練時間長和不可解釋等缺點。

  k-近鄰(kNN,k-Nearest Neighbors)算法是一種基于實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較復雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。

  支持向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論提出的一種新的學習方法,它的最大特點是根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。對于分類問題,支持向量機算法根據區域中的樣本計算該區域的決策曲面,由此確定該區域中未知樣本的類別。 邏輯回歸是一種利用預測變量(數值型或離散型)來預測事件出現概率的模型,主要應用于生產欺詐檢測,廣告質量估計,以及定位產品預測等。

  (3)關聯分析

  關聯分析是一種簡單、實用的分析技術,就是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。關聯分析在數據挖掘領域也稱為關聯規則挖掘。

  關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放人其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。

  關聯分析的算法主要分為廣度優先算法和深度優先算法兩大類。應用最廣泛的廣度優先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(Dynamic Itemset Counting)等算法。主要的深度優先算法有FP-growth,Eclat(Equivalence CLAss Transformation),H-Mine等算法。

  Apriori算法是一種廣度優先的挖掘產生布爾關聯規則所需頻繁項集的算法,也是最著名的關聯規則挖掘算法之一。FP-growth算法是一種深度優先的關聯分析算法,于2000年由Han Jiawei等人提出,FP-growth算法基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)發現頻繁模式。

  (4)深度學習

  深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。深度學習(DL,Deep Learning)的概念由Hinton等人于2006年提出,是一種使用深層神經網絡的機器學習模型。深層神經網絡是指包含很多隱層的人工神經網絡,它具有優異的特征學習能力,學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類。

  同機器學習方法一樣,深度機器學習方法也有監督學習與無監督學習之分。

  不同的學習框架下建立的學習模型很是不同。例如,卷積神經網絡(Convolutional neural networks,簡稱CNNs)就是一種深度的監督學習下的機器學習模型,而深度置信網(Deep Belief Nets,簡稱DBNs)就是一種無監督學習下的機器學習模型。

  當前深度學習被用于計算機視覺,語音識別,自然語言處理等領域,并取得了大量突破性的成果。運用深度學習技術,我們能夠從大數據中發掘出更多有價值的信息和知識。

  5、數據可視化

  數據可視化(Data Visualization)運用計算機圖形學和圖像處理技術,將數據換為圖形或圖像在屏幕上顯示出來,并進行交互處理。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺及人機交互等多個技術領域。數據可視化概念首先來自科學計算可視化(Visualization in Scientific Computing),科學家們不僅需要通過圖形圖像來分析由計算機算出的數據,而且需要了解在計算過程中數據的變化。

  隨著計算機技術的發展,數據可視化概念已大大擴展,它不僅包括科學計算數據的可視化,而且包括工程數據和測量數據的可視化。學術界常把這種空間數據的可視化稱為體視化(Volume Visualization)技術。近年來,隨著網絡技術和電子商務的發展,提出了信息可視化(Information Visualization)的要求。通過數據可視化技術,發現大量金融、通信和商業數據中隱含的規律信息,從而為決策提供依據。這已成為數據可視化技術中新的熱點。

  清晰而有效地在大數據與用戶之間傳遞和溝通信息是數據可視化的重要目標,數據可視化技術將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。

  數據可視化的關鍵技術包括:

  (1)數據信息的符號表達技術。除了常規的文字符號和幾何圖形符號,各類坐標、圖像陣列、圖像動畫等符號技術都可以用來表達數據信息。特別是多樣符號的綜合使用,往往能讓用戶獲得不一樣的溝通體驗。各數據類型具體的符號表達技術形式包括各類報表、儀表盤、坐標曲線、地圖、譜圖、圖像幀等。

  (2)數據渲染技術。例如各類符號到屏幕圖形陣列的2D平面渲染技術、3D立體渲染技術等。渲染關鍵技術還和具體媒介相關,例如手機等移動終端上的渲染技術等。

  (3)數據交互技術。除了各類PC設備和移動終端上的鼠標、鍵盤與屏幕的交互技術形式,可能還包括語音、指紋等交互技術。

  (4)數據表達模型技術。數據可視化表達模型描述了數據展示給用戶所需要的語言文字和圖形圖像等符號信息,以及符號表達的邏輯信息和數據交互方式信息等。其中數據矢量從多維信息空間到視覺符號空間的映射與轉換關系,是表達模型最重要的內容。此外,除了數據值的表達技術,數據趨勢、數據對比、數據關系等表達技術都是表達模型中的重要內容。

  大數據可視化與傳統數據可視化不同。傳統數據可視化技術和軟件工具(如BI)通常對數據庫或數據倉庫中的數據進行抽取、歸納和組合,通過不同的展現方式提供給用戶,用于發現數據之間的關聯信息。而大數據時代的數據可視化技術則需要結合大數據多類型、大體量、高速率、易變化等特征,能夠快速的收集、篩選、分析、歸納、展現決策者所需要的信息,支持交互式可視化分析,并根據新增的數據進行實時更新。

  數據可視化技術在當前是一個正在迅速發展的新興領域,已經出現了眾多的數據可視化軟件和工具,如Tableau、Datawatch、Platfora、R、D3.js、Processing.js、Gephi、ECharts、大數據魔鏡等。許多商業的大數據挖掘和分析軟件也包括了數據可視化功能,如IBM SPSS、SAS Enterprise Miner等。

  6、大數據安全與隱私

  大數據時代面臨的挑戰

  大數據的應用會帶來巨大社會價值和商業利益,受價值利益驅動,大數據系統也必然會面臨大量而且復雜的風險。舉例來說,如果某一大數據系統產生的價值足以左右公司的發展,那么它所面臨的風險就可能是一個公司層面價值的角力,小至個人、大至國家也是如此。大數據系統同時是復雜的,由傳統的信息存儲檢索變為復雜的信息技術系統,進而可能是龐大的社會工程,由此也帶來了諸多安全及隱私方面的挑戰。

  大數據的安全性已上升到國家戰略層面。在大數據時代,信息化已完全深入到國民經濟與國防建設的方方面面,從智能家居、智慧城市甚至到智慧地球,個人、企業、團體等的海量數據為國家建設和決策提供了宏觀的數據依據,大數據的安全問題將會越來越多地對國家戰略產生直接或間接的影響。

  大數據的價值體現是一個從隱性價值到顯性價值的動態過程。有兩個關鍵性因素影響大數據的價值體現:數據“由量變到質變”的動態演變以及相關數據處理技術的不斷升級。單個的數據記錄對大數據結果并無太大影響,只有數據記錄集合的數據量積累到一定程度時,數據才有可能“被挖掘”從而體現其價值。隨著數據處理技術的不斷發展,當今看似“雜亂無序”的數據,將來會變成一座“金礦”。現有的信息安全管理體系重點保護數據的顯性價值,對數據的隱形價值及動態性管理及防護不足。

  大數據的信息竊取手段更加隱蔽和多元化。不法分子從大量的公開數據中通過數據關聯手段可以獲取相關個體的隱性數據,從而導致個人的隱私泄露。通過分析金融交易數據、交通運輸信息包含軌跡信息,可以得知一個城市或地區的經濟活動狀態和趨勢。

  大數據獨有的“數據污染”問題會造成嚴重的社會資源浪費。一些惡意攻擊型的“數據污染”會影響到企業、團體乃至國家政治及經濟方面的決策,從而導致嚴重的后果。

  針對安全和隱私的考慮

  大數據的商業價值是毋庸置疑的。通過大數據挖掘,企業所表現出控制力量遠超以往。數據開始成為企業的核心資產,甚至企業的金礦就蘊含在數據之中,而數據質量和數據治理正成為企業掘金的重要手段和工具,是企業能否把握大數據機遇的重要抓手。

  然而,數據質量的提升和數據治理的優化,又不完全取決于企業自身的努力。大數據商業價值在于不斷開發,而大數據應用作為新業態、新模式、新應用,痛點和難點不僅在于技術,更重要的是無論是數據采集、整理和挖掘,還是數據產品的推廣、應用,企業都將面臨法律的天花板,而隱私問題無疑是諸多法律問題中的重要一環。

  在互聯網時代人們似乎是覺得自己的隱私受到了威脅,而移動互聯網與大數據時代無疑加深了這種威脅。大數據時代,數據被奉為一切服務的起點與終點。人們似乎生活在一個360度無死角監控的環境里,周邊仿佛有千萬雙眼睛在盯著你,以全景式方式洞察著你,同時又有從四面八方涌來的信息將你完全淹沒其中。

  對于置身其中的用戶而言,一方面渴望大數據時代,給自己帶來更為貼心便捷的服務;另一方面,又時刻擔憂著自己的隱私安全遭受侵犯。這種焦慮從前年谷歌眼鏡在發布過程中屢屢受挫就能體現,即使谷歌眼鏡事實上什么也沒有做,還是無法阻擋人們對數據安全的擔憂。

  對于政府管理部門而言,一方面政府已經意識到數據保護和隱私保護方面的制度不完善,并開始不斷強調個人信息和隱私保護的重要性,另一方面政府似乎仍然沒有從傳統社會的治理方式與管控思維中解脫出來,制度上的滯后帶來的不僅是灰色地帶,還有風險。

  于大數據時代而言,這在本質上,就是一場商家與商家之間,用戶與商家之間、政府與商家之間的隱私之戰。對于商家來說,誰更靠近用戶的隱私,誰就占據更多的機會;于用戶而言,保護隱私,似乎從一開始就是個偽命題;于政府而言,安全與發展似乎總是難以抉擇。

  普林斯頓大學的計算機科學家阿爾文德?納拉亞南(Arvind Narayanan)稱,只要有合理的商業動機來推動數據挖掘的進程,任何形式的隱私都是“算法上不可能”(algorithmically impossible)的。我們無法回避這樣的事實,即數據 絕不是中立的,它很難保持匿名。

  大數據與隱私之間的關系,如何進行平衡,如何把握尺度,這已成為各國立法、司法和執法部門面臨的共同難題,當然也是企業不得不思考的問題。

  目前歐盟模式和美國模式是個人數據保護方面全球最有影響的兩種模式。歐盟模式是由國家主導的立法模式,國家通過立法確定個人數據保護的各項基本原則和具體法律規定。早在1981年歐盟理事會通過了《有關個人數據自動化處理的個人保護協定》,1995年歐盟通過了《關于與個人數據處理相關的個人數據保護及此類數據自由流動的指令》,歐盟后來又制定了一系列個人數據保護相關的法律法規。美國是行業自律模式的倡導者,通過行業內部的行為規則、規范、標準和行業協會的監督,實現行業內個人數據保護的自我約束。行業自律模式是在充分保證個人數據自由流動的基礎上保護個人數據,從而保護行業利益。

  我國對于個人數據保護的立法起步較晚,目前還沒有專門的《個人信息保護法》。目前國內關于個人數據相關的法律法規主要是2012年后頒布的三部:①2012年全國人大常委會發布的《關于加強網絡信息保護的決定》;

  ②2013年工信部發布的《信息安全技術公共及商用服務信息系統個人信息保護指南》(這份標準不具有法律約束力);

  ③2013年工信部發布的《電信和互聯網用戶個人信息保護規定》。在立法缺位的情況下,容易出現“守法成本高、違法成本低”的怪相。

  今年國家在個人數據保護立法方面有很多新舉措,國內個人數據保護的立法在逐步加強。 3月15日生效的《網絡交易管理辦法》進一步規定了網絡交易中個人信息保護的要求。 3月15日生效的新《消費者權益保費法》授予工商部門對“侵害消費者個人信息依法得到保護的權利”的執法權。

  10月10日最高人民法院發布的《關于審理利用信息網絡侵害人身權益民事糾紛案件適用法律若干問題的規定》明確了用戶個人信息及隱私被侵犯的訴權。

  10月27國家網信辦表示將出臺App應用程序發展管理辦法,監管移動應用行業的各種亂象。

  11月3日全國人大常委會初次審議《中華人民共和國刑法修正案(九)(草案)》,并向社會公開征求意見;《草案》包括出售、非法提供公民個人信息罪的修正案。

  11月4日工信部發布《通信短信息服務管理規定(征求意見稿)》向社會公開征求意見。《意見稿》規定,任何組織或者個人不得將采用人工收集、在線自動收集、數字任意組合等手段獲得的他人的電話號碼用于出售、共享和交換,或者向通過上述方式獲得的電話號碼發送短信息。

  從大數據關鍵技術來看,其數據的收集、存儲、處理分析、可視化呈現等環節面臨著不同的風險、安全和隱私需求。

  (1)數據收集

  根據數據來源不同,大體可分為兩類,一是社會團體對自身數據的采集,如企業自己的生產、運營等數據;二是社會團體對他人數據的采集,如本企業對其它企業、社會公眾、第三方系統等的數據采集。對于前者,企業擁有正當地采集、處置權利,但對于后者,牽涉到他方甚至多方,數據對企業存在潛在價值而進行采集的同時,是否會影響他方的利益應在考慮范圍之內。尤其在雙方不對等的情況下,如企業對個人,被采集方應保留被告知甚至授權的權利,數據采集行為應該接受社會公信力量(如政府、行業協會等)的監管和公示,以保證被采集方的利益不受侵害,限制企業不收集、統計敏感信息以保護被采集方的隱私信息不受侵犯。

  同時,數據收集過程中,應注意對數據來源進行甄別和驗證,保證數據的真實性和有效性。

  (2)數據存儲

  已采集并存儲下來的數據,是真正的價值所在,也是大數據一切行為和價值的基礎。對于此,可以參考傳統的信息安全手段,以保證數據的可用性、完整性、私密性為其目標。當前已有的技術手段可提供相應的安全保障,可用性通過冗余設置,完整性有校驗技術;對于私密性,因大數據體量巨大的特性,傳統的加密技術會犧牲大量的計算資源,可行性較差,應重點使用訪問控制技術和安全審計功能來保障安全。由于大數據通常的體量巨大,很難被完全復制,因此可以通過可行的審計途徑及時發現惡意行為來提高數據的安全性。

  (3)數據處理分析

  處理分析行為直接對大數據執行讀寫操作,應設置完備的權限管理,進行明確地授權后才能完成相應操作。具體到大數據分析,不同的分析策略會產生不同的結果和價值,通過策略制定、執行過程進而獲取結果,策略的有效性直接關聯到結果的可用性,策略制定階段,應考慮通過應用不同的策略對結果進行相互驗證,以保證分析結果的正確可用。同時,分析策略制定也是一個優化的過程,通過策略的優化以提高計算性能,可以有效降低計算成本。

  (4)數據可視化呈現

  大數據經過分析處理,對結果進行可視化呈現。經大數據系統處理后的結果直接體現了數據的價值,但同時也框定了僅對特定需求存在價值,數據所有者應當對計算結果進行評估,評估其有效性、可用性,如必要,進行相應的優化調整。同時應采取必要的安全策略,如訪問控制、認證授權等對分析結果進行保護。

  綜合來說,大數據系統安全體系的建立是一個系統性的工程,需要國家從法律法規、行業規范以及技術手段等多方面對個人隱私數據進行監管和保護。數據所有者在法律法規框架內擁有數據的處置權利。對于社會公共數據收集和使用,在企業成為數據的合法擁有者之前,應需要承擔相應的社會責任作為其成本。具體而言,以個人隱私保護為例,應考慮是否授權企業對個人隱私內容進行收集和使用;大數據的收集和使用,是否可以不包含個人隱私內容;對社會公眾行為的分析和獲益,是否需要承擔社會成本。

  當前我國的法律對隱私權的保護雖然沒有做出明確直接的保護性規定,但卻間接地從其他方面對公民的隱私權不容侵犯給予了確認。我國刑法主要是通過追究侵害隱私權行為刑事責任來實現對隱私權的保護。國外對個人數據的隱私權保護有統一專業的法律和法規。新版歐盟數據保護法規定在歐盟運營的企業一旦被發現不當利用所掌握的包括客戶、供應商或自己員工在內的個人信息,將面臨最嚴厲的處罰,違反該法規的公司將面臨最多相當于其全球營業額5%的罰款。美國除了采用網絡隱私權保護法律法規外,還傾向采用行業自律手段。

  面對大數據安全方面的復雜性,2015年美國國家標準與技術研究院(NIST)大數據工作組下屬安全與隱私小組針對大數據安全與隱私發布了第一版框架性草案。該草案從安全與隱私的維度對大數據的幾個關鍵特征:多樣性、規模性、真實性、高速性、有效性進行了闡述。

  7、參考架構下的管理能力評估

  參考架構以“一個概念體系,二個價值鏈維度”,描繪了大數據的整個生態體系。參考架構為從事大數據相關應用的每個個體組織提供了一個通用的大數據應用系統框架,而檢驗并不斷提升每個組織大數據應用高效運轉的一個有效方式,是建立一套遵循參考架構的標準化的能力評估體系,幫助每個組織對照評估指標和成熟階段進行評價和不斷改進,最終實現組織的大數據價值最大化。

  作為個體組織評估其大數據管理能力的水平,可以沿用參考架構的思想,借鑒Gartner、IBM、CMMI等企業和機構的研究成果,按照參考架構中的主要角色設定功能域,即一級評估指標,再針對各功能域中的主要活動事項提出相應的二級評估指標,后續可以細化進一步的具體評估指標項并設定分項權重,最終形成完整的大數據管理能力成熟度評價模型。

  參考架構下的管理能力評估

  大數據管理能力評估模型是針對一個組織的大數據管理現狀進行評估的框架,通過量化的評估結果,組織可以清楚的定義大數據管理當前所處的發展階段以及和未來發展方向之間的差距。

  大數據管理能力成熟度階段分級參考如圖所示:

  大數據管理能力成熟度階段分級參考圖

  8、參考架構下的開源軟件

  大數據開源技術促進了大數據生態系統的蓬勃發展,為組織或企業構建大數據系統提供了豐富可供選擇的開源軟件。這些開源的大數據生態系統從某些方面提供了解決構建大數據系統技術問題的解決方案,對大數據標準的制定具有積極影響。然而,從大數據系統架構角度來看,這些開源軟件從架構層次及功能上還缺少明晰的分類方法,給企業在構建大數據系統時選擇哪些開源軟件造成了困惑。而大數據參考架構基于構件層級分類體系和二個價值鏈維度,提供了一個通用的大數據系統參考架構,可用于對現有大數據開源軟件進行分類和映射。

  通過研究收集大數據生命周期中各環節(提供、收集、存儲、預處理、分析挖掘、可視化、訪問、消費等)的眾多開源軟件,結合大數據標準參考架構的構件層級分類法和價值鏈維度,我們總結并制作了大數據開源軟件分布圖,如圖所示。該分布圖一方面體現了這些開源軟件的分類及其對大數據參考架構的影響;另一方面,也為企業在構建遵循大數據標準的大數據應用系統時可以方便地找到并選擇適合的開源軟件。

(來源:工信頭條)

標簽:大數據我要反饋
最新視頻
萬可 flexROOM? 為智能樓宇十二時辰需求隨時候命   
海格電氣志系列開關插座 | 你再也不用對著無處安放的插頭著急了喲~   
施耐德電氣卡車巡展
專題報道
致過去 創未來
致過去  創未來 在我們身邊,有許多人,他們的故事、經歷……值得我們珍藏和回味;他們的奮斗、堅持、感動、驕傲……值得我們銘記和見證。施耐德電氣特別制作了用鏡頭和文字呈現一個個鮮活的人物故事
企業通訊
2019AI智算互聯 賦能制造高峰論壇
2019AI智算互聯 賦能制造高峰論壇

2019AI智算互聯 賦能制造高峰論壇 由世界人工智能大會組委會主辦,智能網承辦的“2019AI智算互聯 賦能制造高峰論

不可錯過!最新趨勢報告:溫度監測對發電機市場有何影響
不可錯過!最新趨勢報告:溫度監測對發電機市場有何影響

溫度監測對發電機市場有何影響?TE Connectivity的定子傳感器為不斷增長的全球發電機市場提供更高的可靠性和效率

在線會議

社區

北京pk计划软件破解