当前位置:首页 > 行业资讯 > 南京大数据治理工程师分享Hadoop基础知识快速入门

南京大数据治理工程师分享Hadoop基础知识快速入门

2年前 (2021-11-04)行业资讯

南京大数据治理工程师讲到,学习大数据治理学生都知道Hadoop是一个非常重要的知识点。本文主要总结了Hadoop的定义、优点和功能。它可以带您了解Hadoop的基本知识,并快速入门。

南京大数据治理

1. Hadoop的定义

总之,Hadoop是一种存储和分析海量数据的工具。

Hadoop是一个用Java语言编写的开源框架,它将海量数据存储在分布式服务器集群上,并运行分布式分析应用程序。其核心组件是MapReduce以及HDFS。

MapReduce是一个计算框架,其核心思想是将计算任务分配给集群内的服务器。通过分解计算任务,根据任务调度程序对任务进行分布式计算。

HDFS是一个分布式文件系统:引入存储文件元数据信息的namenode服务器和实际存储数据的datanode服务器,实现分布式存储和读取数据。

2. Hadoop的优点

高可靠性:具有逐位存储和处理数据的能力,数据可靠。

高可扩展性:Hadoop在可用的计算机集群之间分配数据,这些集群可以很容易地扩展到干节点。

效率:可以在节点之间动态移动数据,保证了每个节点的动态平衡,处理速度非常快。

高容错性:它可以自动保存数据的多个副本,并自动重新划分失败的任务。

成本低:相对于一机、商业数据仓库、qlikview、永宏z-suites等数据集市,Hadoop是开源的,因此项目的软件成本将大大降低。

南京大数据治理工程师讲到,Hadoop有一个用Java语言编写的框架,所以它非常适合在Linux生产平台上运行。

3.Hadoop能做什么

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据提取到mysql、DB2、Oracle、mongdb和主流数据库

机器学习:比如Apache mahout项目

搜索引擎:Hadoop + Lucene实现


发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。