apache-spark tutorials and guides

how to specify consumer group in Kafka Spark Streaming using direct stream

Nov 17, 2022

How to assign and use column headers in Spark?

Mar 24, 2022

python hadoop apache-spark pyspark multiple-columns

Spark: difference when read in .gz and .bz2

Mar 16, 2022

apache-spark rdd gzip bz2

Why python UDF returns unexpected datetime objects where as the same function applied over RDD gives proper datetime object

Nov 12, 2022

apache-spark pyspark spark-dataframe

pyspark.sql.utils.IllegalArgumentException: u'java.net.UnknownHostException: user'

Sep 08, 2018

hadoop apache-spark pyspark

Apache Spark reads for S3: can't pickle thread.lock objects

Oct 22, 2019

python multithreading apache-spark amazon-s3 pyspark

How to use double pipe as delimiter in CSV?

Oct 22, 2022

scala apache-spark

Is it possible to subclass DataFrame in Pyspark?

Oct 15, 2022

python python-2.7 oop apache-spark pyspark

How to handle white spaces in dataframe column names in spark

Sep 09, 2022

apache-spark pyspark apache-spark-sql

org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [120 seconds]. This timeout is controlled by spark.rpc.lookupTimeout

Aug 16, 2017

apache-spark apache-spark-sql hadoop-yarn hadoop2

How to split multi-value column into separate rows using typed Dataset?

Jul 03, 2022

scala apache-spark apache-spark-dataset

How to tune memory for Spark Application running in local mode

Nov 07, 2022

apache-spark

How to get data of previous row in Apache Spark

Mar 30, 2022

dataframe scala apache-spark apache-spark-sql

How does Spark-submit in cluster deploy mode manage the application Jars

May 03, 2022

apache-spark spark-streaming

When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment

Nov 15, 2022

hadoop apache-spark

Compare Value of Current and Previous Row in Spark

Oct 22, 2022

scala apache-spark apache-spark-sql

How to pass DataFrame as input to Spark UDF?

Oct 23, 2022

python apache-spark pyspark user-defined-functions

Error while running PySpark DataProc Job due to python version

Nov 12, 2022

python-3.x apache-spark google-cloud-dataproc

Spark collect_list and limit resulting list

Apr 23, 2022

scala apache-spark dataframe limit

call of distinct and map together throws NPE in spark library

Sep 28, 2020

scala nullpointerexception apache-spark

New posts in apache-spark