mapreduce適合用迭代計算嗎?
Mapreduce不適合迭代計算(比如機器學習,圖計算等。)、交互處理(數據挖掘)和流處理(點擊日志分析),中間結果需要保存到磁盤,必然會導致磁盤io操作,影響性能。
Spark將運算的中間數據存儲在內存中,使得迭代計算效率更高,更適合重復計算。
在mapreduce作業中,只有一對M和R,而在spark作業中,可以有多個M和
mapreduce對數據的操作分為?
MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行操作。MapReduce主要對數據執行兩種操作:Map和Reduc
大專生如何學習大數據?
目前大數據方向的工作主要分為三個主要方向:平臺搭建/優化/運維/監控、大數據開發/設計/架構、數據分析/挖掘。
開始使用大數據需要學習以下知識點:
編程
Java編程是大數據學習的基礎,也是大數據工程師最喜歡的編程工具。所以想要學好大數據,掌握Java基礎是必不可少的。
命令
大數據開發通常在Linux環境下進行。如果想從事大數據開發相關工作,需要掌握Linux的基本操作命令。
3、Hadoop
Hadoop是大數據開發的重要框架,其核心是HDFS和MapReduce。另外需要掌握Hadoop集群,Hadoop集群管理,YARN等等。
4、蜂巢
動物園管理員
6、Hbase
7、Redis
8、水槽
9、卡夫卡
10、標量
11、火花
Spark是專門為大規模數據處理設計的快速通用計算引擎,為管理各種數據集和數據源的大數據處理需求提供了全面統一的框架。
等等
相關:大數據學習路線指南
嘉米谷大數據0基礎培訓班和大數據開發五月班已經開課。歡迎預約免費試聽!