Greenplum PXF是否支持HDFS短路读取?

我想知道当我们将pxf和datanode放在同一主机上时,Greenplum PXF是否可以利用HDFS短路读取的优势。 我们进行了初步测试,但是,pxf似乎没有利用短路读数。谷歌搜索后几乎没有任何东西,因此我们不确定是否错过了什么。 我们使用Greenplum 6.4(社区版本),pxf 5.11.2和CDH 6.3。

任何参考,建议或评论都非常感谢。

ppwpp 回答:Greenplum PXF是否支持HDFS短路读取?

正如Sung Yu Wei所说,要利用短路hdfs读取,必须将客户端(在本例中为pxf jvm)与容纳块的datanode放在同一位置。 hawq就是这种情况,因为段与数据节点位于同一位置,而使用gpdb的酶则其最可能的段未与hadoop群集一起部署。

此外,hawq / pxf使用的工作分配算法考虑了数据局部性,以将工作(在本例中为读取hdfs块)分配给位于同一位置的hawq段/ pxf代理,从而最大程度地缩短了读取hdfs的可能性。 gpdb / pxf使用的工作分配不再执行此操作,而是将hdfs数据块随机分配到segment / pxf。

如果您的部署体系结构中有gpdb段和hdfs块并置,则可能值得修改工作分配,以考虑数据局部性以最大化hdfs短路读取。

,

感谢斯坦利和希夫兰。我们正在考虑将来为Greenplum PXF带来此功能。但目前不支持。

,

带有hawq的PXF的旧版本实际上驻留在数据节点中,并利用短路读取。 当前的PXF已更改为驻留在Greenplum段主机中,并充当hdfs客户端。 我认为您可以在短路读取的数据节点上调整pxf源代码和设置pxf。但是,可以加快hdfs pxf的通信速度,但会降低pxf greenplum段的通信速度。

本文链接:https://www.f2er.com/2386639.html

大家都在问