Pyspark无法找到数据源：kafka

2024-05-06 • 问答

我正在研究Kafka流，并尝试将其与Apache Spark集成。但是，在运行时，我遇到了问题。我收到以下错误。

这是我正在使用的命令。

df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers","localhost:9092").option("subscribe","taxirides").load()

错误：

Py4JJavaError：调用o77.load时发生错误：java.lang.ClassnotFoundException：无法找到数据源：kafka。请在http://spark.apache.org/third-party-projects.html

中找到软件包

我该如何解决？

注意：我正在Jupyter Notebook中运行它

findspark.init('/home/karan/spark-2.1.0-bin-hadoop2.7')
import pyspark
from pyspark.sql import SparkSession
Spark = SparkSession.builder.appName('KafkaStreaming').getOrCreate()
from pyspark.sql.types import *
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

一切正常，直到此处（代码上方）

df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers","taxirides").load()

这是出问题的地方（代码上方）。

我关注的博客：https://www.adaltas.com/en/2019/04/18/spark-streaming-data-pipelines-with-structured-streaming/

import os # setup arguments submit_args = '--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0' if 'PYSPARK_SUBMIT_ARGS' not in os.environ: os.environ['PYSPARK_SUBMIT_ARGS'] = submit_args else: os.environ['PYSPARK_SUBMIT_ARGS'] += submit_args # initialize spark import pyspark findspark.init()

Pyspark无法找到数据源：kafka

wangjing0613 回答：Pyspark无法找到数据源：kafka

大家都在问