apache-spark tutorials and guides

Which setting to use in Spark to specify compression of `Output`?

Sep 20, 2025

hadoop apache-spark hadoop-plugins

How do I specify a default value when the value is "null" in a spark dataframe?

Sep 20, 2025

sql apache-spark pyspark apache-spark-sql

Difference between approxCountDsitinct and approx_count_distinct in spark functions

Sep 20, 2025

python apache-spark pyspark

Securing Parquet Files Column-wise

Sep 19, 2025

apache-spark parquet database-administration database-security apache-ranger

Why pyspark fillna does not fill boolean values

Sep 20, 2025

python apache-spark pyspark apache-spark-sql fillna

Mixing Spark Structured Streaming API and DStream to write to Kafka

Sep 19, 2025

apache-spark spark-streaming spark-structured-streaming

Write a parquet file with delta encoded coulmns

Sep 20, 2025

scala apache-spark pyspark parquet pyarrow

How can I run spark-submit in jupyter notebook?

Sep 19, 2025

python apache-spark pyspark jupyter

Explanation of lambda function inside flatMap function: rdd.flatMap(lambda x: map(lambda e: (x[0], e), x[1]))?

Sep 19, 2025

python apache-spark lambda pyspark

How to launch spark 3.0.0 kubernetes workload without kerberos?

Sep 19, 2025

apache-spark kubernetes kerberos

How to sort only one column within a spark dataframe using pyspark?

Sep 19, 2025

python apache-spark pyspark

execute query on sqlserver using spark sql

Sep 17, 2025

sql-server apache-spark apache-spark-sql rowcount column-count

PySpark (Step/Job) on EMR cannot connect to AWS Glue Data Catalog but Zeppelin can

Sep 19, 2025

apache-spark pyspark amazon-emr

Change root path for Spark Web UI?

Sep 19, 2025

python apache-spark kubernetes pyspark jupyter

Create SQL table from parquet files

Sep 19, 2025

sql r sql-server apache-spark parquet

split pyspark dataframe into multiple dataframes based on a condition

Sep 19, 2025

python dataframe apache-spark pyspark conditional-statements

SparkJob in multinode cluster: WARN TaskSetManager: Lost task 0.0 in stage 0.0: java.io.FileNotFoundException

Sep 19, 2025

java apache-spark pyspark io filenotfoundexception

Truncate Oracle table using Spark

Sep 17, 2025

oracle-database apache-spark jdbc apache-spark-sql

spark.conf.set("spark.driver.maxResultSize", '6g') is not updating the default value - PySpark

Sep 18, 2025

apache-spark pyspark azure-databricks

Spark read.parquet takes too much time

Sep 18, 2025

performance apache-spark parquet

New posts in apache-spark