apache-spark tutorials and guides

how to pass python package to spark job and invoke main file from package with arguments

Aug 28, 2022

python apache-spark pyspark

scala vs java for Spark? [closed]

Oct 14, 2022

java scala apache-spark

Spark jobs finishes but application takes time to close

Jun 06, 2019

scala amazon-s3 apache-spark

Is foreachRDD executed on the Driver?

Oct 08, 2019

apache-spark spark-streaming

Add one more StructField to schema

Dec 29, 2019

python apache-spark pyspark apache-spark-sql

Loading compressed gzipped csv file in Spark 2.0

Sep 15, 2022

apache-spark pyspark

What is StringIndexer , VectorIndexer, and how to use them?

Jan 06, 2019

apache-spark dataset spark-dataframe

Mapping Spark DataSet row values into new hash column

Mar 24, 2022

scala apache-spark spark-dataframe apache-spark-dataset

External Hive Table Refresh table vs MSCK Repair

Aug 17, 2022

apache-spark hive hivecontext hive-partitions

get first N elements from dataframe ArrayType column in pyspark

Oct 29, 2022

apache-spark pyspark apache-spark-sql

Spark: save DataFrame partitioned by "virtual" column

Nov 20, 2022

apache-spark dataframe pyspark apache-spark-sql partitioning

Spark: get number of cluster cores programmatically

Aug 27, 2022

java apache-spark dataset hadoop-yarn core

How do I filter rows based on whether a column value is in a Set of Strings in a Spark DataFrame

Nov 02, 2022

scala apache-spark apache-spark-sql

what is exact difference between Spark Transform in DStream and map.?

Oct 26, 2022

apache-spark spark-streaming

How do I convert an RDD with a SparseVector Column to a DataFrame with a column as Vector

Oct 16, 2022

apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml

is Parquet predicate pushdown works on S3 using Spark non EMR?

Aug 27, 2022

amazon-s3 apache-spark parquet

Spark: Join dataframe column with an array

Oct 29, 2022

join apache-spark

Write spark dataframe to file using python and '|' delimiter

Nov 17, 2022

python apache-spark pyspark pyspark-sql

How to use from_json with Kafka connect 0.10 and Spark Structured Streaming?

Jul 30, 2020

scala apache-spark apache-kafka apache-kafka-connect spark-structured-streaming

How to start multiple streaming queries in a single Spark application?

Aug 26, 2022

apache-spark spark-structured-streaming

New posts in apache-spark