apache-spark tutorials and guides

Error in accessing cassandra from spark in java: Unable to import CassandraJavaUtil

Apr 12, 2022

cassandra apache-spark datastax

Why does Spark job fails to write output?

Apr 02, 2022

apache-spark

How to solve SPARK-5063 in nested map functions

Mar 23, 2022

java nested apache-spark

Apache Spark architecture

Apr 25, 2022

apache-spark hdfs bigdata

How to vectorize DataFrame columns for ML algorithms?

Aug 29, 2022

scala apache-spark apache-spark-mllib apache-spark-ml

How to sort RDD

Nov 20, 2022

scala sorting apache-spark rdd

How to create a connection to a remote Spark server and read in data from ipython running on local machine?

May 23, 2022

apache-spark ipython hdfs ipython-notebook

How to read json data using scala from kafka topic in apache spark

Apr 10, 2022

scala apache-spark apache-kafka spark-streaming

how to specify consumer group in Kafka Spark Streaming using direct stream

Nov 17, 2022

java apache-spark apache-kafka spark-streaming kafka-consumer-api

How to assign and use column headers in Spark?

Mar 24, 2022

python hadoop apache-spark pyspark multiple-columns

Spark: difference when read in .gz and .bz2

Mar 16, 2022

apache-spark rdd gzip bz2

Why python UDF returns unexpected datetime objects where as the same function applied over RDD gives proper datetime object

Nov 12, 2022

apache-spark pyspark spark-dataframe

pyspark.sql.utils.IllegalArgumentException: u'java.net.UnknownHostException: user'

Sep 08, 2018

hadoop apache-spark pyspark

Apache Spark reads for S3: can't pickle thread.lock objects

Oct 22, 2019

python multithreading apache-spark amazon-s3 pyspark

How to use double pipe as delimiter in CSV?

Oct 22, 2022

scala apache-spark

Is it possible to subclass DataFrame in Pyspark?

Oct 15, 2022

python python-2.7 oop apache-spark pyspark

How to handle white spaces in dataframe column names in spark

Sep 09, 2022

apache-spark pyspark apache-spark-sql

org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [120 seconds]. This timeout is controlled by spark.rpc.lookupTimeout

Aug 16, 2017

apache-spark apache-spark-sql hadoop-yarn hadoop2

How to split multi-value column into separate rows using typed Dataset?

Jul 03, 2022

scala apache-spark apache-spark-dataset

How to tune memory for Spark Application running in local mode

Nov 07, 2022

apache-spark

New posts in apache-spark