AV免费播放一区二区三区_亚洲综合网第三页_日本一 中文字幕久久综合伊人_麻豆久久久9性大片_日韩av

大數(shù)據(jù)掃盲

2022-9-16    seo達(dá)人




一、什么是大數(shù)據(jù)?

大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。–JohnRauser。

大數(shù)據(jù)代表了更多的信息,更多理解信息的角度。

大數(shù)據(jù),又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無法通過人腦甚至主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

 

二、大數(shù)據(jù)的分類

  • 結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。結(jié)構(gòu)化數(shù)據(jù)標(biāo)記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結(jié)果當(dāng)中的方式,搜索引擎都支持標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記。(員工的姓名,年齡等)
  • 非結(jié)構(gòu)話數(shù)據(jù),是與結(jié)構(gòu)化數(shù)據(jù)相對的,不適于由數(shù)據(jù)庫二維表來表現(xiàn),包括所有格式的辦公文檔、XML、HTML、各類報表、圖片和咅頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫采用多值字段、了字段和變長字段機制進行數(shù)據(jù)項的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域。(員工的聲音,頭像等)
  • 半結(jié)構(gòu)化數(shù)據(jù)是一種適于數(shù)據(jù)庫集成的數(shù)據(jù)模型,也就是說,適于描述包含在兩個或多個數(shù)據(jù)庫(這些數(shù)據(jù)庫含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。(員工的簡歷等)

 

三、大數(shù)據(jù)的特點

1、規(guī)模性(Volume)大數(shù)據(jù)的數(shù)據(jù)量是驚人的,隨著技術(shù)的發(fā)展,數(shù)據(jù)量開始爆發(fā)性增長,達(dá)到TB甚至PB級別。例如,淘寶網(wǎng)平常每天的商品交易數(shù)據(jù)約20TB(1TB=1024GB),全球最大設(shè)計平臺Facebook的用戶,每天產(chǎn)生的日志數(shù)據(jù)超過了300TB(日志數(shù)據(jù)是記錄用戶操作記錄的,并非發(fā)帖內(nèi)容)。大數(shù)據(jù)如此龐大的數(shù)據(jù)量,是無法通過人工處理的。需要智能的算法、強大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術(shù)來處理這些大數(shù)據(jù)。

2、多樣性(Varity) 大數(shù)據(jù)廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)大體上可以分為三類,分別是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)的特點是數(shù)據(jù)間因果關(guān)系強,比如息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;非結(jié)構(gòu)化的數(shù)據(jù)的特點是數(shù)據(jù)間沒有因果關(guān)系,比如音頻、圖片、視頻等;半結(jié)構(gòu)化數(shù)據(jù)的特點是數(shù)據(jù)間的因果關(guān)系弱。比如網(wǎng)頁數(shù)據(jù)、郵件記錄等。

3、高速性(Velocity) 大數(shù)據(jù)的交換和傳播是通過互聯(lián)網(wǎng)、云計算等方式實現(xiàn)的,遠(yuǎn)比傳統(tǒng)媒介的信息交換和傳播速度快捷。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別,除了大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大以外,大數(shù)據(jù)對處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實時分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見效,幾乎無延遲。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。

4、價值性(Value) 價值性是大數(shù)據(jù)的核心特點。現(xiàn)實中大量的數(shù)據(jù)是無效或者低價值的,大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析有價值的數(shù)據(jù)。比如,某寶電商平臺每天產(chǎn)生的大量交易數(shù)據(jù)(大數(shù)據(jù)),通過一些算法可以分析出具有某些特征的人喜歡什么類型的商品,然后根據(jù)客戶的特征,給其推薦TA喜歡的商品。

圖片

軟件

1.Docker Compose是一個用來幫助定義和分享多容器應(yīng)用的工具。有了Compose,就能創(chuàng)建一個YAML文件來定義服務(wù),只需要一個命令,就能夠啟動所有東西,也能夠把所有東西銷毀掉。

2.Zeppelin是一個基于Web的notebook,提供交互數(shù)據(jù)分析和可視化。后臺支持接入多種數(shù)據(jù)處理引擎,如Spark,Hive等。支持多種語言:Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

圖片

3.Hadoop是由java語言編寫的,在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運行分布式分析應(yīng)用的開源框架,其核心部件是HDFS與MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。

4.Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載,可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。

5.Hbase其實是Hadoop database的簡稱,是一種NoSQL數(shù)據(jù)庫,主要適用于海量明細(xì)數(shù)據(jù)(十億、百億)的隨機實時查詢,如日志明細(xì)、交易清單、軌跡行為等。

tips: Hive適合用來對一段時間內(nèi)的數(shù)據(jù)進行分析查詢。適合用來進行大數(shù)據(jù)的實時查詢。

6.Spark是一種基于內(nèi)存的快速、通用、可擴展的大數(shù)據(jù)計算引擎。它集批處理、實時流處理、交互式查詢、圖計算與機器學(xué)習(xí)于一體。

tips: Spark是那么一個專門用來對那些分布式存儲的大數(shù)據(jù)進行處理的工具,它要借助Hadoop HDFS的數(shù)據(jù)存儲。Hadoop的MapReduce是分步對數(shù)據(jù)進行處理的,存取磁盤的過程會影響處理速度。Spark從磁盤中讀取數(shù)據(jù),把中間數(shù)據(jù)放到內(nèi)存中,完成所有必須的分析處理,將結(jié)果寫回集群,所以Spark更快。所以Hadoop + Spack結(jié)合起來用更好。

7.JupyterLab是一個集 Jupyter Notebook、文本編輯器、終端以及各種個性化組件(有VScode內(nèi)味了)于一體的全能IDE。

8.prestoDB是一種開源的分布式 SQL 查詢引擎,從頭開始設(shè)計用于針對任何規(guī)模的數(shù)據(jù)進行快速分析查詢。它既可支持非關(guān)系數(shù)據(jù)源,例如 Hadoop 分布式文件系統(tǒng) (HDFS)、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持關(guān)系數(shù)據(jù)源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata。

9.TensorFlow是一個端到端開源機器學(xué)習(xí)平臺。它擁有一個全面而靈活的生態(tài)系統(tǒng),其中包含各種工具、庫和社區(qū)資源,可助力研究人員推動先進機器學(xué)習(xí)技術(shù)的發(fā)展,并使開發(fā)者能夠輕松地構(gòu)建和部署由機器學(xué)習(xí)提供支持的應(yīng)用。

 

四、主流的大數(shù)據(jù)架構(gòu)Lambda

Lambda架構(gòu)是其根據(jù)多年進行分布式大數(shù)據(jù)系統(tǒng)的經(jīng)驗總結(jié)提煉而成,目標(biāo)是設(shè)計出一個能滿足實時大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu),包括有:高容錯、低延時和可擴展等。Lambda架構(gòu)整合離線計算和實時計算,融合不可變性(Immunability),讀寫分離和復(fù)雜性隔離等一系列架構(gòu)原則,可集成Hadoop,Kafka,Storm,Spark,Hbase等各類大數(shù)據(jù)組件。

圖片

1、Batch View預(yù)運算查詢函數(shù),預(yù)先建立索引,支持隨機讀取,能很好的解決特別大級別的數(shù)據(jù)且還需要支持實時查詢,要消耗非常龐大的資源的問題。

2、Batch Layer執(zhí)行的是批量處理,例如Hadoop或者Spark支持的Map-Reduce方式。利用Batch Layer進行預(yù)運算的作用實際上就是將大數(shù)據(jù)變小,從而有效地利用資源,改善實時查詢的性能。

圖片

3、Serving Layer是一個專用的分布式數(shù)據(jù)庫。Batch Layer通過對master dataset執(zhí)行查詢獲得了batch view,而Serving Layer就要負(fù)責(zé)對batch view進行操作,從而為最終的實時查詢提供支撐。

4、Speed Layer對更新到Serving layer帶來的高延遲的一種補充,它是一種增量的計算,而非重新運算。Speed layer與Batch layer非常相似,它們之間最大的區(qū)別是前者只處理最近的數(shù)據(jù),后者則要處理所有的數(shù)據(jù)。

圖片

 


作者:李丹

轉(zhuǎn)載請注明:學(xué)UI網(wǎng)》大數(shù)據(jù)掃盲

藍(lán)藍(lán)設(shè)計建立了UI設(shè)計分享群,每天會分享國內(nèi)外的一些優(yōu)秀設(shè)計,如果有興趣的話,可以進入一起成長學(xué)習(xí),請加藍(lán)小助,微信號:ben_lanlan,報下信息,藍(lán)小助會請您入群。歡迎您加入噢~~希望得到建議咨詢、商務(wù)合作,也請與我們聯(lián)系01063334945。


分享此文一切功德,皆悉回向給文章原作者及眾讀者.
免責(zé)聲明:藍(lán)藍(lán)設(shè)計尊重原作者,文章的版權(quán)歸原作者。如涉及版權(quán)問題,請及時與我們?nèi)〉寐?lián)系,我們立即更正或刪除。


藍(lán)藍(lán)設(shè)計www.hglv.net )是一家專注而深入的界面設(shè)計公司,為期望卓越的國內(nèi)外企業(yè)提供卓越的UI界面設(shè)計、BS界面設(shè)計 、 cs界面設(shè)計 、 ipad界面設(shè)計 、 包裝設(shè)計 、 圖標(biāo)定制 、 用戶體驗 、交互設(shè)計、 網(wǎng)站建設(shè) 、平面設(shè)計服務(wù)UI設(shè)計公司、界面設(shè)計公司、UI設(shè)計服務(wù)公司、數(shù)據(jù)可視化設(shè)計公司、UI交互設(shè)計公司、高端網(wǎng)站設(shè)計公司、UI咨詢、用戶體驗公司、軟件界面設(shè)計公司


日歷

鏈接

個人資料

存檔