-
尝试使用带有公共列的Pig将四个csv文件合并为一个
我是不熟悉Pig的,正在尝试与之接触,目前我正在尝试合并由movieId链接的四个csv文件。 <a href="htt -
两个词的正则表达式不区分大小写
我如何编写正则表达式语句以查找不区分大小写的“加拿大航空”一词,并且两个词之间可能有空格字 -
Pig-表达式不是项目表达式:(名称:ScalarExpression)类型:null Uid:null)
这是我的文件数据: <pre><code>86246,205,7,707,1078778070,12564,3/2/2012,12,OZ,1,7.59 86246,205,63,6319,107654575,17876,3/2/ -
如何在Apache Pig中转换“仅日期”字段
在PIG中转换仅日期字段时遇到问题。 <pre><code>(Trump, Donald J.,VA,MARKETING EXECUTIVE,40,2/6/2016) </code></pre> <p -
如何从PIG中的多个列中删除空值
我的数据集大约有20万行。在PIG中使用以下命令,我试图删除空值,但得到错误的输出。我在这里想念什 -
在猪中替换空值不起作用
我的数据集中有些列为空。 <pre><code>C1;C2 ;;; ;;; ;;; ;;; </code></pre> 我做了简单的操作,如果只有 -
Pig Latin-正则表达式REGEX_EXTRACT与过滤器匹配
我想知道为什么这不起作用: <pre><code>result1 = filter data by (OtherExperience matches '\\.*(\\d+\\D*(?i)teach\\w* -
如何在猪中对一个字符数组进行子串化?
我想知道如何使用STRSPLIT()将猪的chararray子字符串化。我已经在网上搜索并遵循了他们的教程,但是我 -
PIG中的SPLIT运算符
我正尝试将reviews_per_month与<a href="https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data" rel="nofollow noreferrer">htt -
oozie错误找不到具有appOwner hdfs的应用程序的日志
我在Azure上使用Hortonworks cloudbreak。我想从Oozie运行Pig作业,但是当作业进入RUNNING状态时,它将抛出以下 -
在Oozie工作流程中运行Pig操作时,与HiveMetaStoreClient的连接丢失
我正在Azure Hortonworks cloudbreak上的Oozie工作流中运行Pig操作,但是Pig操作以以下错误结束,因此我尝试将ya -
Apache Pig:包含路径的字符串中的REGEX_EXTRACT第二个目录名
下午好, 从NameNode日志中提取数据并进行过滤后,我得到如下输出: <pre><code>DUMP USERS_AND_DIRS; -
无法使用PIG将数据插入hbase表
如果我运行-> <pre><code>data = LOAD 'hdfs:/user/zzz/Pokemon.csv' USING PigStorage(',') AS (serial_no:int,name: -
从猪拉丁脚本中的字符串期望撇号中删除标点符号
我想对单词文件执行单词计数,并删除带有撇号的字符串的标点符号。我尝试执行以下代码,但出现意 -
猪在本地模式下与MapReduce模式下的性能
我有一个Hadoop集群,其中包含3个节点和12 GB的数据/1.5个中间记录。我知道Pig可以在本地模式(出于开发 -
PIG:每个产品在不同位置的计数 输出
我正在尝试按照Pig的步骤1到步骤4进行操作: <pre><code>STEP 1:- Create a user table:and take data from /tmp/users.tx -
从猪拉丁文件中读取元组
这是<a href="https://pig.apache.org/docs/r0.17.0/basic.html" rel="nofollow noreferrer">https://pig.apache.org/docs/r0.17.0/basic.html</ -
没有。猪每十年的记录数量
我有这样的数据 <pre><code>name, id, nametype,recclass,mass, fall, year, Aachen,1, Valid, L5, 21, Fell, 01/01/1880 1 -
Apache Pig,包括DaysBetween的端点
如何验证Pig中的DaysBetween()函数是否已考虑终点?例如,如果我尝试 <pre><code>grunt> DaysBetween(ToDate -
扫描hbase表以查找其中列字段值为空的行
我想在hbase shell中执行快速筛选扫描,以检索特定列值为null或为空的所有记录。有人告诉我我也可以在PI -
如何在猪中存储没有分隔符的数据
完成猪的特征识别后,我使用<code>','</code>分隔符和<code>PigStorage</code>函数存储数据: <pre><code>0 -
使用Pig Latin从文件中获取最大日期
我有一个带有日期和其他一些列的文本文件。 日期列值的格式为“ yyyy-MM-dd HH:mm:ss”。 我想从 -
使用Java代码调用时,Pig store无法运行store命令(嵌入式模式)
我正在学习Hadoop,我尝试使用Java运行我的Pig脚本,但似乎它跳过了脚本中编写的store命令,并且不会在 -
计算Apache Pig中的不同项目
我有一个带模式的表用户表 <pre><code>|Column 1 | USER ID |int| |Column 2 |EMAIL|chararray| |Column 3 |LANGUAGE |chararr -
我的代码在做什么错?转换为PigLatin,无法弄清楚如何打印返回值
<pre><code>import java.util.*; public class Project3 { public static void main (String[] args) { ArrayList<String> translatio -
从文件读取并为复杂数据结构定义架构的经验法则
我对于在Pig中读取复杂的文件(即元组和包)和定义架构感到困惑, 更精确地说,我在读取文件 -
传递带有空格的参数
当我使用下面显示的命令运行脚本时,将<code>police_force</code>参数设置为<code>"Surrey Police"</code>时, -
如何将两组元组提取到单个变量中?
我需要将LOG_COUNT1和LOG_COUNT2提取到具有以下两个记录的单一组中:<code>police_force, date, crime_count</code> -
Apache Pig:分组和求和数据
我有一些数据,例如: <pre><code>select</code></pre> 我想按类型对它们进行分组,预期结果应该是:</p -
我们可以向猪UDF注入豆吗
我在运行Pig脚本的项目中使用Spring Boot。我已经定义了Pig UDF。我想知道是否可以将一个bean注入此UDF类。