-
Pyspark作业可能的资源限制问题
我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于 -
spark:构建SparkSession本地模式,添加本地jar
我正在尝试在本地创建sparksession。我想把它放在罐子里。出于安全原因,我无法使用Maven。 我尝试 -
即使配置了EMR,也找不到Spark org.postgresql.Driver
我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库: <pre><code>mode = "overwrite" url = "jdbc -
Spark:将HDFS URL与数据局部性警告并行化
我有一个HDFS zip文件URL列表,我想在RDD映射函数中打开每个文件,而不是使用binaryFiles函数。 最初 -
Spark:是否可以增加pyarrow缓冲区?
我试图像这样将大型(〜30GB)数据帧传递给pandas_udf: <pre><code>@f.pandas_udf(gen_udf_schema(), f.PandasUDFType.G -
在Pyspark中,如果将与partitionBy中使用的列相同的列进行分组,会发生什么情况? 编辑:
我有一个按列<code>ID</code>进行分区并写入磁盘的数据集。这导致每个分区在文件系统中获得其自己的文 -
pyspark rdd在一个rdd中合并多个json文件数据
我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件, -
KafkaUtils.createDirectStream失败,出现TypeError
我想尝试使用pyspark和kafka进行火花流传输,但是createDirectStream失败,并显示错误类型 <pre><code>import os -
使用Pyspark将列从字符串转换为时间戳
我有2列(Violation_Time,Time_First_Observed)的pyspark数据帧,它们被捕获为字符串。数据样本在下面,以HHmm -
如何在pySpark的.when()中使用多个.contains()?
我试图根据另一列中的现有单词在新列中创建类。为此,我需要包括多个.contains()条件。但是我没有 -
无法在pyspark中导入parse_url 编辑:
我有这个sql查询,用于pyspark中的hiveql: <pre class="lang-py prettyprint-override"><code>spark.sql('SELECT split(par -
Pyspark中的动态window.partitionBy列
我创建了两个数据框。 <code>df_stg_raw</code>数据框正在保存重复记录。 <code>df_qualify</code>数据帧保持<code>me -
在执行程序/ pyspark中读/写表
如何在执行程序的pandas_udf内部从增量表中读取/写入? 出于某种原因,我想从数据集中检索各种数 -
如何将具有范围值的列添加到DataFrame
我有具有当前结构的数据框 <pre><code>user_id | country | event | 1 | CA | 1 | 2 | USA | 1 | -
计算时间戳和字符串之间的pyspark月差异
我正在使用带有JSON文件的数据块中的pyspark清理数据。 <code>eval</code>括号中的表达式来自JSON文件。 <p -
如何在groupBy()之后选择数据框的特定行?
我有一个pyspark DataFrame:<code>df</code>。例如: <pre><code> e | attempt | grade --------------------- 1 | 1 | 100 -
在kubernetes集群中使用spark_sklearn
我正在从事机器学习项目。我最初使用scikit-learn(sklearn)库。在模型优化过程中,我使用了sklearn的经典 -
从Spark / Dataproc将.txt文件写入GCS:如何仅写入一个大文件,而不是自动将其拆分成多个文件?
我使用Dataproc运行Pyspark脚本,该脚本将数据帧写入Google云端存储桶中的文本文件。当使用大数据运行脚 -
如何使用pyspark读取嵌套的json
我的json文件如下所示 {“ numFound”:9710,“ start”:3000,“ interactions”:[{“ intID”:“ 13407682 -
流终止时,事件中心到databricks错误?
Azure Databricks使用以下代码从事件中心读取数据时,我一直在尝试建立概念证明: <pre><code>connectionStr -
PySpark:使用窗口功能汇总数据框
我有一个数据框<code>my_df</code>,其中包含4列: <pre><code>+----------------+---------------+--------+---------+ | -
Pyspark EMR Jupyter笔记本加载JAR依赖Postgres
我正在尝试将数据帧写入Postgres数据库,并且正在关注问题<a href="https://stackoverflow.com/questions/51772350/how-to -
未能找到主题的负责人; org.apache.kafka.common.utils.Utils.formatAddress上的java.lang.NullPointerException NullPointerException
当我们尝试从启用SSL的Kafka主题流式传输数据时,我们将面临以下error。您能在这个问题上帮助我们吗? -
修改图案以查找数字
我有这种模式可以从字符串中提取数字。 <pre><code>ptns = { 'clean1': re.compile(r'[-&\s]+', re.U -
如何从上一行中减去值并更新PySpark中的数据框?
<a href="https://i.stack.imgur.com/UIbsq.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/UIbsq.png" alt="Dataframe"/> -
pyspark collect_set在groupby之外的列
我正在尝试使用collect_set获取groupby的<strong> NOT </strong>部分的categorie_name字符串列表。 我的代码是 <pre -
将RDD列转换为浮动
我刚刚从<a href="http://files.grouplens.org/datasets/movielens/ml-latest-small.zip" rel="nofollow noreferrer">http://files.grouplens. -
在Databricks / Pyspark上读取字节的实木复合地板字符串
假设我有一个Spark DataFrame,其主体中包含字节作为字符串。 我想获取一个字符串,该字符串是实木复合 -
将pyspark数据帧拆分为块并转换为字典
我有一个pyspark数据框,如下所示: <pre><code>+----+--------------------+ | ID| Email| +----+------------ -
从主节点或主从节点触发与数据源的连接
我有一个集群,其中有一个主机(主机名:masterA)和两个从机(主机名:slaveA和slaveB)。我的代码将从s