apache-spark tutorials and guides

Big data signal analysis: better way to store and query signal data

Jun 17, 2020

How to profile pyspark jobs

Nov 12, 2022

apache-spark pyspark apache-spark-sql profiler spark-dataframe

PySpark: org.apache.spark.sql.AnalysisException: Attribute name ... contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it [duplicate]

Jun 13, 2022

python apache-spark pyspark spark-dataframe parquet

sbt assembly shading to create fat jar to run on spark

Nov 04, 2022

apache-spark sbt guava grpc sbt-assembly

Spark + Parquet + Snappy: Overall compression ratio loses after spark shuffles data

Mar 22, 2022

apache-spark apache-spark-sql spark-dataframe parquet snappy

Bypassing org.apache.hadoop.mapred.InvalidInputException: Input Pattern s3n://[...] matches 0 files

Nov 22, 2021

hadoop amazon-s3 apache-spark

Why does spark-shell --master yarn-client fail (yet pyspark --master yarn seems to work)?

Nov 14, 2022

hdfs apache-spark hadoop-yarn

In spark join, does table order matter like in pig?

Oct 16, 2022

hadoop apache-spark apache-pig bigdata

Spark query running very slow

Feb 12, 2022

apache-spark apache-spark-sql pyspark

Spark Error: Could not initialize class org.apache.spark.rdd.RDDOperationScope

Apr 12, 2022

apache-spark

Spark Multi Label classification

Aug 31, 2022

apache-spark scikit-learn pyspark

ALS model - predicted full_u * v^t * v ratings are very high

Feb 18, 2022

apache-spark apache-spark-mllib apache-spark-ml

How to get the progress bar (with stages and tasks) with yarn-cluster master?

Aug 11, 2020

apache-spark jar progress-bar apache-spark-sql hadoop-yarn

Spark DAG differs with 'withColumn' vs 'select'

Feb 05, 2022

python dataframe apache-spark pyspark directed-acyclic-graphs

How to decide on the number of partitions required for input data size and cluster resources?

Feb 09, 2019

hadoop apache-spark

Spark Streaming textFileStream not supporting wildcards

Sep 15, 2018

apache-spark hdfs spark-streaming

When to prefer Hadoop MapReduce over Spark?

Jan 31, 2020

java apache-spark hadoop mapreduce

How to join big dataframes in Spark SQL? (best practices, stability, performance)

Nov 13, 2022

performance join apache-spark apache-spark-sql spark-dataframe

How to fetch offset id while consuming Kafka from Spark, save it in Cassandra and use it to restart Kafka?

Oct 20, 2022

java apache-spark cassandra apache-kafka

How to run Spark Scala code on Amazon EMR

Aug 05, 2021

scala amazon-web-services apache-spark emr amazon-emr

New posts in apache-spark