spark和hadoop的區別？java轉大數據后悔了

spark sql和hive參數區別

SparkSQL和Hive在參數設置上有一些區別，以下是其中幾點的比較：

1.Hash函數處理：Spark運行時使用的hash函數與Hive的哈希算法不同，如果使用hash()，結果和Hive的hash()會有差異。

2.GROUPINGSETS生成：Hive和SparkSQL使用groupingsets生成的GROUPING_ID不一致。

3.REGEXP_EXTRACT處理：在Hive中，如果regexp_extract未匹配到任何值，則返回null；而在Spark中，則返回空字符。

4.row_number()over子句：在SparkSQL中，row_number()over子句中的orderby或sortby部分不能省略。

5.grouping_id()函數：這個函數生成的數據在Spark和Hive中是不同的。

6.對非法數據或null的處理：在Hive中，reflect()函數如果遇到非法數據或null，會返回null；而在Spark中，則會拋出異常。

7.to_date()函數：在某些值的情況下，Spark和Hive的處理結果不一致。例如，Spark中to_date('2017-12-13-15')會返回null，而Hive中會返回2017-12-13。

8.字符串小數比較：在Spark中，字符串小數比較結果可能與預期有差別。例如，SELECT'0.1'=0會返回true，因為此時0.1會被轉換為int。

9.對URL的處理：在parse_url()函數中，如果HTTPURL中有不符合格式的臟子串（如空格等），Hive會去掉臟子串且匹配成功，而Spark的匹配方式更嚴格，要求URL字符串本身是符合正常格式的，否則會匹配不到返回空。

10.對日期處理：在datediff()函數中，比如0000-00-00執行datediff，Spark和Hive的結果存在差異。

11.對時間處理：對于24點，Spark認為是非法的并返回NULL，而Hive則正常處理。

12.date_sub()、date_add()函數：當月份或日子為00時，Hive會返回一個日期，而Spark則返回NULL。

此外，SparkSQL和Hive在元數據管理、支持的SQL語言、以及開發方式等方面也有所不同。具體使用哪個取決于具體業務需求和實際情況。

hadoop和大數據的關系和spark的關系

首先，大數據是個概念而已，簡單比喻可以這么說，hadoop是實現大數據分析的一種架構；其實有點類似建設銀行與銀行的概念，建設銀行是銀行的一種；在沒有hadoop之前我們處理大數據也是可以的，我們可以自己寫程序去處理，Java，Python等語言都可以去實現大數據處理，而hadoop是Java里面沉淀出來的一個架構，里面就有個生態圍繞著它完善，所以喊著喊著，好多人一說到大數據就會說到Hadoop，而Hadoop里面又有原生apache，cdh，hdp等廠商開源版。

ApacheSpark是專為大規模數據處理而設計的快速通用的計算引擎,你可以理解它是Hadoop里面的一個補充功能。

hadoop和spark區別

Spark和Hadoop的區別在于它們處理大數據的方式不同。

因為Hadoop最開始只提供了HDFS和MapReduce這兩個組件，而且MapReduce的計算模型是批處理模型，需要在Map階段和Reduce階段之間讀寫HDFS，導致計算時間較長。

而Spark基于內存計算的思想，使用了新的計算模型：彈性分布式數據集（RDD），這種計算模型通過內存緩存數據，可以直接在內存中進行各種計算、處理操作，大大加快了計算速度。

就功能而言，Spark可以支持更多類型的應用程序開發，支持實時流處理、交互式查詢和機器學習等領域，而Hadoop在大數據處理上具有很高的穩定性和可擴展性。

hadoop spark storm區別

Hadoop是一個生態圈。

里面由很多如mapreducehivehbasehdfs組成。

storm是流式處理的老大。速度快即時通訊。淘寶的JStorm可以達到百萬級每秒。

spark是對hadoop的MR的改進。由于MR需要不斷的將數據落盤，互相拉取導致IO大。降低少量數據的運算速度（落盤是為了大量數據時出錯可以在錯誤的地方繼續處理，而Spark只能重來）。spark采用的內存計算。不需要中間數據落盤。所以速度會快，非常適合機器學習用（幾G~十幾個G）。但是注意新手搞spark非常容易導致死機。

Hadoop與Spark相比有存在優勢的方面嗎

首先，我們要思考Hadoop為什么會流行起來？Hadoop之所以流行是因為它解決了互聯網，移動互聯網快速數據積累與原有傳統數據分析方案無法適應的痛點。

我在《領域修煉方法-論軟件架構設計的思想及其適應性》一文中曾論述過，隨著信息技術的不斷發展，很多解決軟件架構設計的具體技術已經過時或者消亡，但是，軟件架構設計的模式、思想是不會過時的。Hadoop作為解決大數據分析痛點的一種具體技術同樣逃脫不了這一命運。Hadoop什么時候出現的？時間要追溯到2016年1月。Spark什么時候出現的？時間是2009年。顯而易見，Spark是建立在Hadoop這一巨人的肩膀之上的開拓創新，其在解決Hadoop能夠解決的問題同時，肯定還能夠彌補Hadoop的不足。因此，從這一點上來說，Hadoop相比于Spark不存在優勢。

Hadoop與Spark相比完全沒有任何優勢了嗎？答案是否定的。這是由于互聯網特別是移動互聯網、物聯網快速發展起來以后，數據規模成幾何級的增長而且這一趨勢還在持續，這一現實需求使得大數據分析仍處于上升期，因此Hadoop的發展同樣處于上升期。既然Hadoop和Spark同處于上升期，那么作為首先出現的Hadoop就具有先發優勢，其實際行業應用更廣，體系發展的更快更完善，不足之處不斷的有新的補充方案加入進來。這一點從Apache的頂級項目就可以看出來，Hadoop生態體系相關的頂級項目有近20個，而Spark相關的只有三四個。

企業的技術選型是以解決當前的業務痛點為前提的，因此，選擇一個成熟完善的體系解決當前業務痛點，還是選擇一個相對不夠完善的方案，投入更多的資源？答案顯而易見，這就是Hadoop相比于Spark的優勢。

至于這一優勢能否彌補Saprk架構能夠解決更多數據分析場景的優勢，在于企業當前端所面臨的實際需求。其實大多數時候，兩者相互配合是一種更完善的方案。