apache-spark tutorials and guides

Spark: Find pairs having at least n common attributes?

Feb 17, 2022

How to show the spark progress bar in Jupyter notebook (using pyspark)

Oct 02, 2022

java scala apache-spark pyspark jupyter-notebook

Spark 2.3 Memory Leak on Executor

Oct 20, 2022

python python-3.x apache-spark memory-leaks pyspark

Is Apache Spark less accurate than Scikit Learn?

Nov 10, 2022

apache-spark machine-learning scikit-learn linear-regression

.sparkstaging directory in hdfs is not deleted

Mar 29, 2019

apache-spark

Big data signal analysis: better way to store and query signal data

Jun 17, 2020

hadoop apache-spark hive impala parquet

How to profile pyspark jobs

Nov 12, 2022

apache-spark pyspark apache-spark-sql profiler spark-dataframe

PySpark: org.apache.spark.sql.AnalysisException: Attribute name ... contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it [duplicate]

Jun 13, 2022

python apache-spark pyspark spark-dataframe parquet

sbt assembly shading to create fat jar to run on spark

Nov 04, 2022

apache-spark sbt guava grpc sbt-assembly

Spark + Parquet + Snappy: Overall compression ratio loses after spark shuffles data

Mar 22, 2022

apache-spark apache-spark-sql spark-dataframe parquet snappy

Bypassing org.apache.hadoop.mapred.InvalidInputException: Input Pattern s3n://[...] matches 0 files

Nov 22, 2021

hadoop amazon-s3 apache-spark

Why does spark-shell --master yarn-client fail (yet pyspark --master yarn seems to work)?

Nov 14, 2022

hdfs apache-spark hadoop-yarn

In spark join, does table order matter like in pig?

Oct 16, 2022

hadoop apache-spark apache-pig bigdata

Spark query running very slow

Feb 12, 2022

apache-spark apache-spark-sql pyspark

Spark Error: Could not initialize class org.apache.spark.rdd.RDDOperationScope

Apr 12, 2022

apache-spark

Spark Multi Label classification

Aug 31, 2022

apache-spark scikit-learn pyspark

ALS model - predicted full_u * v^t * v ratings are very high

Feb 18, 2022

apache-spark apache-spark-mllib apache-spark-ml

How to get the progress bar (with stages and tasks) with yarn-cluster master?

Aug 11, 2020

apache-spark jar progress-bar apache-spark-sql hadoop-yarn

Spark DAG differs with 'withColumn' vs 'select'

Feb 05, 2022

python dataframe apache-spark pyspark directed-acyclic-graphs

How to decide on the number of partitions required for input data size and cluster resources?

Feb 09, 2019

hadoop apache-spark

New posts in apache-spark