Apache Pig LOAD 操作符

Apache Pig LOAD 操作符用于从文件系统加载数据。

语法

LOAD 'info' [USING FUNCTION] [AS SCHEMA];

这里,

  • LOAD 是一个关系运算符。
  • 'info' 是需要加载的文件。它包含任何类型的数据。
  • USING 是一个关键字。
  • FUNCTION 是一个加载函数。
  • AS 是关键字。
  • SCHEMA 是传递文件的模式,括在括号中。

LOAD 运算符示例

在本示例中,我们从文件系统加载文本文件数据。

执行 LOAD Operator 的步骤

  • 在本地计算机上创建一个文本文件并为其提供一些值。
$ nano pload.txt

Apache Pig LOAD Operator

  • 检查写入文本文件中的值。
$ cat pload.txt

Apache Pig LOAD Operator

  • 上传特定目录下 HDFS 上的文本文件。
$ hdfs dfs-put pload.txt /pigexample
  • 开启猪 MapReduce 运行模式。
$ pig
  • 加载包含数据的文件。
grunt> A = LOAD '/pigexample/pload.txt' USING PigStorage(',') AS (a1:int,a2:int,a3:int,a4:int) ;
  • 现在,执行并验证数据。
grunt> DUMP A;

Apache Pig LOAD Operator

  • 让我们检查相应的架构。
grunt> DESCRIBE A;

Apache Pig LOAD Operator

在这里,我们得到了想要的输出。

下一章:Apache Pig CROSS 运算符

Apache Pig CROSS 运算符有助于计算两个或多个关系的叉积。使用 CROSS 算子是一项开销很大的操作,应该谨慎使用。 CROSS 算子示例在这个例子中,我们计算两个关系的数据 ...