乐九娱乐城二八杠赌钱

大數據介紹

/ 大數據 / 0 條評論 / 20瀏覽

什么是大數據

基本概念

《數據處理》

在互聯網技術發展到現今階段,大量日常、工作等事務產生的數據都已經信息化,人類產生的數據量相比以前有了爆炸式的增長,以前的傳統的數據處理技術已經無法勝任,需求催生技術,一套用來處理海量數據的軟件工具應運而生,這就是大數據!

處理海量數據的核心技術:

海量數據存儲:分布式

海量數據運算:分布式

這些核心技術的實現是不需要用戶從零開始造輪子的

存儲和運算,都已經有大量的成熟的框架來用

存儲框架:

HDFS——分布式文件存儲系統(HADOOP中的存儲框架)

HBASE——分布式數據庫系統

KAFKA——分布式消息緩存系統(實時流式數據處理場景中應用廣泛)

.......

運算框架:(要解決的核心問題就是幫用戶將處理邏輯在很多機器上并行)

MAPREDUCE—— 離線批處理/HADOOP中的運算框架

SPARK —— 離線批處理/實時流式計算

STORM —— 實時流式計算

.......

輔助類的工具(解放大數據工程師的一些繁瑣工作):

HIVE —— 數據倉庫工具:可以接收sql,翻譯成mapreduce或者spark程序運行

FLUME——數據采集

SQOOP——數據遷移

ELASTIC SEARCH —— 分布式的搜索引擎

.......

換個角度說,大數據是:

有海量的數據 有對海量數據進行挖掘的需求 有對海量數據進行挖掘的軟件工具(hadoop、spark、storm、flink、tez、impala......)

大數據在現實生活中的具體應用 數據處理的最典型應用:公司的產品運營情況分析

電商推薦系統:基于海量的瀏覽行為、購物行為數據,進行大量的算法模型的運算,得出各類推薦結論,以供電商網站頁面來為用戶進行商品推薦

精準廣告推送系統:基于海量的互聯網用戶的各類數據,統計分析,進行用戶畫像(得到用戶的各種屬性標簽),然后可以為廣告主進行有針對性的精準的廣告投放

大數據處理流程 大數據處理的一個基本流程是:

具體的大數據處理方法確實有很多,總結了一個普遍適用的大數據處理流程,并且這個流程應該能夠對大家理順大數據的處理有所幫助。   

大數據處理之一:采集

   大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。   在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。   

大數據處理之二:預處理

   雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

大數據采集過程中通常有一個或多個數據源,這些數據源包括同構或異構的數據庫、文件系統、服務接口等,易受到噪聲數據、數據值缺失、數據沖突等影響,因此需首先對收集到的大數據集合進行預處理,以保證大數據分析與預測結果的準確性與價值性。

大數據的預處理環節主要包括數據清理、數據集成、數據歸約與數據轉換等內容,可以大大提高大數據的總體質量,是大數據過程質量的體現。 數據清理技術包括對數據的不一致檢測、噪聲數據的識別、數據過濾與修正等方面,有利于提高大數據的一致性、準確性、真實性和可用性等方面的質量; 數據集成則是將多個數據源的數據進行集成,從而形成集中、統一的數據庫、數據立方體等,這一過程有利于提高大數據的完整性、一致性、安全性和可用性等方面質量;

數據歸約是在不損害分析結果準確性的前提下降低數據集規模,使之簡化,包括維歸約、數據歸約、數據抽樣等技術,這一過程有利于提高大數據的價值密度,即提高大數據存儲的價值性。

數據轉換處理包括基于規則或元數據的轉換、基于模型與學習的轉換等技術,可通過轉換實現數據統一,這一過程有利于提高大數據的一致性和可用性。

總之,數據預處理環節有利于提高大數據的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大數據預處理中的相關技術是影響大數據過程質量的關鍵因素

  

大數據處理之三:處理/分析

1、數據處理

大數據的分布式處理技術與存儲形式、業務數據類型等相關,針對大數據處理的主要計算模型有MapReduce分布式計算框架、分布式內存計算系統、分布式流計算系統等。MapReduce是一個批處理的分布式計算框架,可對海量數據進行并行分析與處理,它適合對各種結構化、非結構化數據的處理。分布式內存計算系統可有效減少數據讀寫和移動的開銷,提高大數據處理性能。分布式流計算系統則是對數據流進行實時處理,以保障大數據的時效性和價值性。總之,無論哪種大數據分布式處理與計算系統,都有利于提高大數據的價值性、可用性、時效性和準確性。大數據的類型和存儲形式決定了其所采用的數據處理系統,而數據處理系統的性能與優劣直接影響大數據質量的價值性、可用性、時效性和準確性。因此在進行大數據處理時,要根據大數據類型選擇合適的存儲形式和數據處理系統,以實現大數據質量的最優化。

2、數據分析

大數據分析技術主要包括已有數據的分布式統計分析技術和未知數據的分布式挖掘、深度學習技術。分布式統計分析可由數據處理技術完成,分布式挖掘和深度學習技術則在大數據分析階段完成,包括聚類與分類、關聯分析、深度學習等,可挖掘大數據集合中的數據關聯性,形成對事物的描述模式或屬性規則,可通過構建機器學習模型和海量訓練數據提升數據分析與預測的準確性. 數據分析是大數據處理與應用的關鍵環節,它決定了大數據集合的價值性和可用性,以及分析預測結果的準確性。在數據分析環節,應根據大數據應用情境與決策需求,選擇合適的數據分析技術,提高大數據分析結果的可用性、價值性和準確性質量。

  

大數據處理之四:挖掘

   與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主

大數據處理之五 : 數據可視化與應用環節

數據可視化是指將大數據分析與預測結果以計算機圖形或圖像的直觀方式顯示給用戶的過程,并可與用戶進行交互式處理。數據可視化技術有利于發現大量業務數據中隱含的規律性信息,以支持管理決策。數據可視化環節可大大提高大數據分析結果的直觀性, 便于用戶理解與使用,故數據可視化是影響大數據可用性和易于理解性質量的關鍵因素.大數據應用是指將經過分析處理后挖掘得到的大數據結果應用于管理決策、戰略規劃等的過程,它是對大數據分析結果的檢驗與驗證,大數據應用過程直接體現了大數據分析處理結果的價值性和可用性。大數據應用對大數據的分析處理具有引導作用。在大數據收集、處理等一系列操作之前,通過對應用情境的充分調研、對管理決策需求信息的深入分析,可明確大數據處理與分析的目標,從而為大數據收集、存儲、處理、分析等過程提供明確的方向,并保障大數據分析結果的可用性、價值性和用戶需求的滿足。

從大的方向來說就是:

1.建立數據倉庫

2.建立數據模型

3.數據分析

4.數據挖掘

5.數據應用

一些組件介紹和常用工具介紹

什么是hadoop

hadoop中有3個核心組件:

分布式文件系統:HDFS —— 實現將文件分布式存儲在很多的服務器上

分布式運算編程框架:MAPREDUCE —— 實現在很多機器上分布式并行運算

分布式資源調度平臺:YARN —— 幫用戶調度大量的mapreduce程序,并合理分配運算資源

hdfs整體運行機制 hdfs:分布式文件系統

hdfs有著文件系統共同的特征:

有目錄結構,頂層目錄是: / 系統中存放的就是文件 系統可以提供對文件的:創建、刪除、修改、查看、移動等功能 hdfs跟普通的單機文件系統有區別:

單機文件系統中存放的文件,是在一臺機器的操作系統中 hdfs的文件系統會橫跨N多的機器 單機文件系統中存放的文件,是在一臺機器的磁盤上 hdfs文件系統中存放的文件,是落在n多機器的本地單機文件系統中(hdfs是一個基于linux本地文件系統之上的文件系統) hdfs的工作機制:

客戶把一個文件存入hdfs,其實hdfs會把這個文件切塊后,分散存儲在N臺linux機器系統中(負責存儲文件塊的角色:data node)<準確來說:切塊的行為是由客戶端決定的> 一旦文件被切塊存儲,那么,hdfs中就必須有一個機制,來記錄用戶的每一個文件的切塊信息,及每一塊的具體存儲機器(負責記錄塊信息的角色是:name node) 3、為了保證數據的安全性,hdfs可以將每一個文件塊在集群中存放多個副本(到底存幾個副本,是由當時存入該文件的客戶端指定的)

綜述:一個hdfs系統,由一臺運行了namenode的服務器,和N臺運行了datanode的服務器組成!