- N +

hadoop完全分布式搭建,hadoop偽分布式搭建全過程

很多朋友對于hadoop完全分布式搭建和hadoop偽分布式搭建全過程不太懂,今天就由小編來為大家分享,希望可以幫助到大家,下面一起來看看吧!

hadoop生態圈包含哪些系統

hadoop生態圈:

1.hdfs:Hadoop分布式文件系統,用來解決機器群存儲數據的問題

2.MapReduce:第一代Hadoop計算引擎,分為map和reduce兩步操作,很好用,但是很笨重。

3.spark:第二代計算引擎,讓map和reduce的界限更模糊,更少的磁盤讀寫

4.pig:上述計算引擎的MapReduce程序寫起來很費勁,類比于匯編語言,pig是接近腳本的方式去描述

5.hive:hive用sql的方式來描述。將sql語言翻譯成MapReduce程序。

6.Tez與spark:新一代計算引擎,能解決中低速數據處理的要求。

7.storm:流計算平臺。數據一邊流,一邊統計。

8.zookeeper:分布存取協同系統

9.yarn:中央管理調度系統

hadoop框架

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。

用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分布式文件系統(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。

hadoop架構包含

Hadoop架構

Hadoop架構是一個開源的、基于Java的編程框架,設計用于跨電腦集群來處理大數據。Hadoop架構管理多個節點之間的數據傳輸,確保即使有一個節點壞掉了,系統仍然保有適當的功能。

正文

Hadoop架構有兩個主要的組件:分布式文件系統和MapReduce引擎。主要的分布式文件系統是Hadoop分布式文件系統(HDFS),這里存儲著程序。MapReduce引擎是用于執行程序的一個框架。

如果說Hadoop可以召喚出任何一個開發人員臉上的微笑,無論他是一個多么嚴肅的人,這并不奇怪。該框架名字的由來因其創始人兒子的一個大象玩具而得名。

什么是Hadoop分布式文件系統

分布式文件系統(DistributedFileSystem)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。Hadoop是Apache軟件基金會所研發的開放源碼并行運算編程工具和分散式檔案系統,與MapReduce和Google檔案系統的概念類似。HDFS(Hadoop分布式文件系統)是其中的一部分。

全分布式和偽分布式的區別

hadoop完全分布式:3個及以上的實體機或者虛擬機組件的機群。

hadoop偽分布式:一個節點。

看了以上兩點可以明白,“用vm多裝幾個unbuntu配置完全分布式,然后做實驗”這是完全可行的。實際上通常也是這么做的,當然可能要求電腦cpu和內存足夠支撐這一計劃。

關于hadoop完全分布式搭建和hadoop偽分布式搭建全過程的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。

返回列表
上一篇:
下一篇: