apache-spark tutorials and guides

Scala & Spark: Recycling SQL statements

Jan 16, 2022

scala apache-spark apache-spark-sql

PySpark: How to evaluate AUC of ML recomendation algorithm?

Sep 26, 2019

python apache-spark pyspark apache-spark-mllib apache-spark-ml

Clean invalid characters from data held in a Spark RDD

Nov 06, 2022

python-3.x apache-spark pyspark rdd

Spark colocated join between two partitioned dataframes

Apr 06, 2019

scala join apache-spark apache-spark-sql spark-dataframe

How to use a PySpark UDF in a Scala Spark project?

Sep 03, 2022

scala apache-spark pyspark py4j mlflow

How to run simple Spark app from Eclipse/Intellij IDE?

Nov 10, 2022

java eclipse scala hadoop apache-spark

Working Around Performance & Memory Issues with spark-sql GROUP BY

Apr 03, 2022

apache-spark apache-spark-sql

scala.ScalaReflectionException: <none> is not a term

Nov 07, 2018

scala apache-spark spark-cassandra-connector

Accessing HBase tables through Spark

Mar 17, 2022

scala hadoop apache-spark hbase

Running Spark on AWS EMR, how to run driver on master node?

Apr 17, 2022

amazon-web-services apache-spark emr

how can you calculate the size of an apache spark data frame using pyspark?

Aug 15, 2022

apache-spark pyspark spark-dataframe

Spark 2.3 submit on Kubernetes error

Aug 31, 2022

apache-spark kubernetes

Does Spark lock the File while writing to HDFS or S3

Nov 14, 2022

apache-spark apache-spark-sql

Merge Schema with int and double cannot be resolved when reading parquet file

Nov 11, 2022

scala apache-spark apache-spark-sql

How to filter a dataset according to datetime values in Spark

Feb 18, 2022

java apache-spark hdfs rdd

Accumulator fails on cluster, works locally

Nov 05, 2022

scala mapreduce apache-spark

Make YARN clean up appcache before retry

Sep 02, 2021

apache-spark hadoop-yarn

Build stateful chain for different events and assign global ID in spark

Apr 12, 2022

java algorithm scala apache-spark spark-streaming

Unable to connect Google Storage file using GSC connector from Spark

Sep 13, 2022

java apache-spark google-cloud-storage google-cloud-dataproc service-accounts

Spark - Serializing an object with a non-serializable member

Sep 27, 2022

java scala apache-spark serialization kryo

New posts in apache-spark