Pig 教程
Pig 教程提供了 Pig 的基本和高级概念。我们的 Pig 教程是为初学者和专业人士设计的。
Pig 是一个高级数据流平台,用于执行 Hadoop 的 Map Reduce 程序。它是由雅虎开发的。 Pig 的语言是 pig Latin。
我们的 Pig 教程包括 Apache Pig 和 Pig 使用、Pig 安装、Pig 运行模式、Pig Latin 概念、Pig 数据类型、Pig 示例、Pig 用户定义函数的所有主题等
什么是Apache Pig
Apache Pig 是一个高级数据流平台,用于执行Hadoop 的MapReduce 程序。 Pig 使用的语言是 Pig Latin。
Pig 脚本在内部转换为 Map Reduce 作业,并在 HDFS 中存储的数据上执行。除此之外,Pig 还可以在 Apache Tez 或 Apache Spark 中执行其工作。
Pig 可以处理任何类型的数据,即结构化、半结构化或非结构化,并将相应的结果存储到 Hadoop 数据文件中系统。使用 PIG 可以实现的每个任务也可以使用 MapReduce 中使用的 java 来实现。
Apache Pig 的特性
让我们看看 Pig 技术的各种用途。
1) 易于编程
为 map reduce 编写复杂的 java 程序对于非程序员来说是相当困难的。 Pig 使这个过程变得简单。在 Pig 中,查询在内部转换为 MapReduce。
2) 优化机会
任务的编码方式允许系统自动优化它们的执行,允许用户专注于语义而不是效率。
3) 可扩展性
编写了用户定义的函数,用户可以在其中编写要执行的逻辑
4) 灵活
它可以轻松处理结构化和非结构化数据。
5) 内置操作符
它包含各种类型的操作符,例如排序、过滤和连接。
Apache MapReduce 和 PIG 之间的区别
Apache MapReduce | Apache PIG |
它是一个低级的数据处理工具。 | 它是一个高级数据流工具。 |
这里需要使用Java或Python开发复杂的程序。 | 不需要开发复杂的程序。 |
在 MapReduce 中进行数据操作比较困难。 | 它提供了内置的运算符来执行数据操作,如联合、排序和排序。 |
它不允许嵌套数据类型。 | 它提供了嵌套的数据类型,如元组、包和映射。 |
Apache Pig 的优势
- 更少的代码-Pig 使用更少的代码来执行任何操作。
- 可重用性-Pig 代码足够灵活,可以再次重用。
- 嵌套数据类型-Pig 提供了一个有用的嵌套数据类型概念,例如元组、包和映射。
下一章:Pig 安装
在本节中,我们将执行 pig 安装。先决条件Java 安装-使用以下命令检查是否安装了 Java。$java-versionHadoop 安装-使用以下命令检查是否安装了 Hadoop。$hadoop version如果您的系 ...