大數(shù)據(jù)技術(shù)概述 熱聞
發(fā)布時(shí)間:2022-12-02 14:49:08
文章來(lái)源:綜合網(wǎng)絡(luò)
一、概念大數(shù)據(jù)技術(shù)是指在構(gòu)架大數(shù)據(jù)平臺(tái)的時(shí)候需要的技術(shù)。包含存儲(chǔ)系統(tǒng),數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),資源調(diào)度,查詢引擎,實(shí)時(shí)框架等。下面以我目...

一、概念
大數(shù)據(jù)技術(shù)是指在構(gòu)架大數(shù)據(jù)平臺(tái)的時(shí)候需要的技術(shù)。包含存儲(chǔ)系統(tǒng),數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),資源調(diào)度,查詢引擎,實(shí)時(shí)框架等。下面以我目前所了解到的一些技術(shù)做簡(jiǎn)要介紹。目前之介紹簡(jiǎn)單概念。
二、技術(shù)詳解
1.基礎(chǔ)架構(gòu):Hadoop
2.簡(jiǎn)介
Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。
2.分布式文件系統(tǒng):HDFS
1.HDFS架構(gòu)
2.簡(jiǎn)介
指被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。
3.特點(diǎn)
HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
3.數(shù)據(jù)倉(cāng)庫(kù):Hive
2.簡(jiǎn)介
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。
3.特點(diǎn)
執(zhí)行過(guò)程走M(jìn)apReduce比較慢,處理規(guī)模大,可擴(kuò)展性高,加載模式為讀時(shí)模式。后面就MapReduce會(huì)做專門(mén)的解釋。
4.存儲(chǔ)引擎:Kudu
2.簡(jiǎn)介
Apache Kudu是由Cloudera開(kāi)源的存儲(chǔ)引擎,可以同時(shí)提供低延遲的隨機(jī)讀寫(xiě)和高效的數(shù)據(jù)分析能力。Kudu支持水平擴(kuò)展,使用Raft協(xié)議進(jìn)行一致性保證,并且與Cloudera Impala和Apache Spark等當(dāng)前流行的大數(shù)據(jù)查詢和分析工具結(jié)合緊密。
3.特點(diǎn)
支持隨機(jī)讀寫(xiě),支持OLAP 分析,太多列查詢時(shí)性能下降,跟關(guān)系型數(shù)據(jù)有點(diǎn)類似。其存儲(chǔ)文件不在HDFS上面,有自己的存儲(chǔ)文件系統(tǒng)。
5.分布式數(shù)據(jù)庫(kù):HBase
2.簡(jiǎn)介
HBase是一個(gè)開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù),它參考了谷歌的BigTable建模,實(shí)現(xiàn)的編程語(yǔ)言為Java。它是Apache軟件基金會(huì)的Hadoop項(xiàng)目的一部分,運(yùn)行于HDFS文件系統(tǒng)之上,為 Hadoop 提供類似于BigTable 規(guī)模的服務(wù)。因此,它可以容錯(cuò)地存儲(chǔ)海量稀疏的數(shù)據(jù)。
3.特點(diǎn)
高可靠、高性能、面向列、可伸縮。
6.實(shí)時(shí)框架:Flink
2.簡(jiǎn)介
Apache Flink是一個(gè)框架和分布式處理引擎,用于對(duì)無(wú)界和有界數(shù)據(jù)流進(jìn)行有狀態(tài)計(jì)算。Flink設(shè)計(jì)為在所有常見(jiàn)的集群環(huán)境中運(yùn)行,以內(nèi)存速度和任何規(guī)模執(zhí)行計(jì)算。
3.特點(diǎn)
流處理特性、API支持、Libraries支持、整合支持。
關(guān)鍵詞: