apache-spark tutorials and guides

Spark SQL alternatives to groupby/pivot/agg/collect_list using foldLeft & withColumn so as to improve performance

Nov 09, 2022

apache-spark apache-spark-sql apache-spark-dataset

Last Access Time Update in Hive metastore

Nov 08, 2022

apache-spark pyspark hive apache-spark-sql

Read From mongoDB in Scala

Nov 08, 2022

mongodb scala apache-spark sbt

Hive table on delta lake

Nov 08, 2022

apache-spark hive delta-lake

Dataproc does not unpack files passed as Archive

Nov 08, 2022

.net apache-spark google-cloud-platform google-cloud-dataproc

How to process logs from distributed log broker (Eg Kafka) exactly after 1 week?

Nov 09, 2022

java python apache-spark apache-kafka apache-storm

spark-nlp : DocumentAssembler initializing failing with 'java.lang.NoClassDefFoundError: org/apache/spark/ml/util/MLWritable$class'

Nov 09, 2022

python apache-spark pyspark johnsnowlabs-spark-nlp

Why is Pandas UDF not being parallelized?

Nov 07, 2022

python apache-spark pyspark databricks azure-databricks

Get difference between two version of delta lake table

Nov 07, 2022

scala apache-spark delta-lake

Spark Structured Streaming program that reads from non-empty Kafka topic (starting from earliest) triggers batches locally, but not on EMR cluster

Nov 08, 2022

apache-spark apache-kafka amazon-emr spark-structured-streaming

saveAsTextFile to s3 on spark does not work, just hangs

Nov 03, 2022

amazon-s3 apache-spark

Apache Spark Native Libraries

Nov 03, 2022

hadoop 64-bit apache-spark hadoop-yarn

Drawbacks of Spark Streaming in Comparison With Real Streaming Computing Systems

Nov 01, 2022

distributed-computing apache-spark apache-storm

Multipart uploads to Amazon S3 from Apache Spark

Nov 03, 2022

file-upload amazon-s3 apache-spark jets3t

How can I make Spark Streaming count the words in a file in a unit test?

Nov 02, 2022

java unit-testing apache-spark spark-streaming

parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file

Apr 21, 2022

java hadoop apache-spark hive

Why does format("kafka") fail with "Failed to find data source: kafka." (even with uber-jar)?

May 08, 2022

apache-spark apache-spark-sql spark-structured-streaming uberjar

ERROR SparkContext: Error initializing SparkContext. java.net.BindException: Cannot assign requested address: Service 'sparkDriver' failed [duplicate]

Mar 21, 2022

scala apache-spark

DataFrame error: "overloaded method value filter with alternatives"

Aug 28, 2021

scala apache-spark dataframe

ERROR Utils: Uncaught exception in thread SparkListenerBus

Aug 22, 2021

scala apache-spark

New posts in apache-spark