apache-spark tutorials and guides

How to create an Encoder for Scala collection (to implement custom Aggregator)?

Mar 09, 2023

Splittling list of JSON key/value pairs into columns of a row in a Dataset

Mar 08, 2023

scala apache-spark apache-spark-sql

Inconsistent results with KMeans between Apache Spark and scikit_learn

Mar 08, 2023

python apache-spark scikit-learn pyspark k-means

Spark - pass full row to a udf and then get column name inside udf

Mar 07, 2023

scala apache-spark

How can I control the number of output files written from Spark DataFrame?

Mar 07, 2023

scala apache-spark apache-kafka apache-spark-sql spark-streaming

Spark: Create temporary table by executing sql query on temporary tables

Mar 08, 2023

scala apache-spark jenkins jdbc

spark dataframe: explode list column

Mar 08, 2023

apache-spark apache-spark-sql

PySpark - Show a count of column data types in a dataframe

Mar 08, 2023

python apache-spark pyspark

Iterate over elements of columns Scala

Mar 08, 2023

scala apache-spark apache-spark-sql

Spark Scala Jaas configuration

Mar 07, 2023

scala apache-spark apache-kafka jaas

Spark Dataset/Dataframe join NULL skew key

Mar 08, 2023

apache-spark apache-spark-sql skew

Cannot resolve given input columns while sql on dataframe

Mar 07, 2023

scala apache-spark

Sorting numeric String in Spark Dataset

Mar 07, 2023

scala apache-spark apache-spark-dataset

How to pass Spark job properties to DataProcSparkOperator in Airflow?

Mar 07, 2023

apache-spark airflow google-cloud-dataproc airflow-scheduler google-cloud-composer

How to fix "ImportError: PyArrow >= 0.8.0 must be installed; however, it was not found."?

Mar 05, 2023

apache-spark pyspark apache-spark-sql

Spark infer schema with limit during a read.csv

Mar 07, 2023

apache-spark

Remove spaces between single character in string

Mar 06, 2023

regex scala apache-spark regex-group

Why is the "topics" argument of KafkaUtils.createStream() a Map rather then array?

Mar 06, 2023

java apache-spark apache-kafka spark-streaming

How to save spark dataframe to parquet without using INT96 format for timestamp columns?

Mar 04, 2023

apache-spark avro parquet

Getting HDFS Location of Hive Table in Spark

Mar 06, 2023

scala apache-spark hive apache-spark-sql hiveql

New posts in apache-spark