apache-spark tutorials and guides

convert epoch to datetime in Scala / Spark

Oct 29, 2022

Pyspark: groupby and then count true values

Oct 26, 2022

apache-spark pyspark

Spark-SQL : How to read a TSV or CSV file into dataframe and apply a custom schema?

Apr 26, 2022

scala apache-spark apache-spark-sql spark-dataframe

How to get the last row from DataFrame?

Oct 31, 2022

scala apache-spark apache-spark-sql spark-dataframe

Filter dataframe on non-empty WrappedArray

Sep 05, 2022

arrays scala apache-spark spark-dataframe

How to convert map to dataframe?

Nov 06, 2022

scala apache-spark dictionary apache-spark-sql

Apache spark and python lambda

Nov 07, 2022

python apache-spark

Redis on Spark:Task not serializable

Aug 28, 2021

scala redis apache-spark

Getting java.lang.RuntimeException: Unsupported data type NullType when turning a dataframe into permanent hive table

Apr 22, 2022

apache-spark pyspark apache-spark-sql

Killing Spark job using command Prompt

Jun 06, 2022

apache-spark

Spark throws java.io.IOException: Failed to rename when saving part-xxxxx.gz

Dec 15, 2021

apache-spark amazon-s3 io rdd

Error while installing Spark on Google Colab

Jun 19, 2022

apache-spark hadoop pyspark google-colaboratory

Saving as Text in Spark 1.30 using Dataframes in Scala

Oct 19, 2022

sql scala apache-spark

When specifying local[n1,n2,n3] for spark master, what are the three parameters?

Nov 17, 2022

apache-spark

OutofMemoryErrory creating fat jar with sbt assembly

Sep 30, 2022

jar cassandra apache-spark sbt

Get first non-null values in group by (Spark 1.6)

Feb 08, 2022

apache-spark pyspark spark-dataframe apache-spark-1.6

Cannot convert type <class 'pyspark.ml.linalg.SparseVector'> into Vector

Sep 11, 2021

apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml

How does web UI calculate Storage Memory (in Executors tab)?

Jul 14, 2018

apache-spark pyspark

Installing spark on windows 10 spark.hive.hiveSessionState

Nov 04, 2022

scala apache-spark

Filling missing dates in spark dataframe column

Nov 14, 2022

scala datetime apache-spark apache-spark-sql

New posts in apache-spark