apache-spark tutorials and guides

Implementing DBSCAN in distributed system

Nov 10, 2022

How to add external jar to spark in HDInsight?

Nov 10, 2022

java azure apache-spark pyspark azure-hdinsight

Spark Streamming : Reading data from kafka that has multiple schema

Nov 10, 2022

apache-spark apache-kafka spark-streaming apache-spark-dataset

Parquet VS Database

Nov 09, 2022

apache-spark parquet

How can unpersisting an RDD cause an RPC timeout?

Nov 10, 2022

scala apache-spark

Spark DataFrame - Read pipe delimited file using SQL?

Nov 08, 2022

scala apache-spark apache-spark-sql spark-dataframe

Spark Sql UDF throwing NullPointer when adding a filter on a columns that uses that UDF

Nov 10, 2022

scala apache-spark apache-spark-sql user-defined-functions

How to use spark-submit's --properties-file option to launch Spark application in IntelliJ IDEA?

Nov 10, 2022

scala apache-spark intellij-idea

java.io.InvalidClassException: org.apache.spark.internal.io.HadoopMapReduceCommitProtocol; local class incompatible

Nov 08, 2022

java hadoop apache-spark cluster-computing

Spark deploy-related properties in spark-submite

Nov 08, 2022

java apache-spark

Spark Structured Streaming with Kafka - How to repartition the data and distribute the processing among worker nodes

Nov 09, 2022

scala apache-spark apache-kafka spark-structured-streaming spark-kafka-integration

Pyspark - Failed to locate the winutils binary in the hadoop binary path [duplicate]

Nov 09, 2022

python apache-spark pyspark

Custom state store provider for Apache Spark on Mesos

Nov 08, 2022

apache-spark mesos spark-structured-streaming

Convert Spark DataFrame schema to new schema

Nov 09, 2022

scala apache-spark dataframe

Java Read Parquet File to JSON Output

Nov 10, 2022

java json apache-spark hadoop parquet

Pyspark SQL Pandas UDF: Returning an array

Nov 08, 2022

python apache-spark pyspark databricks user-defined-functions

Spark 2.x + Tika: java.lang.NoSuchMethodError: org.apache.commons.compress.archivers.ArchiveStreamFactory.detect

Nov 09, 2022

apache-spark apache-tika cloudera-cdh

Writing Parquet files with Scala for spark without spark as dependency

Nov 09, 2022

scala apache-spark parquet

Compile multiple jars from single source project using Gradle

Nov 08, 2022

scala apache-spark gradle

Merging rows into a single struct column in spark scala has efficiency problems, how do we do it better?

Nov 10, 2022

scala apache-spark

New posts in apache-spark