apache-spark tutorials and guides

Spark broadcast error: exceeds spark.akka.frameSize Consider using broadcast

Jul 27, 2020

scala apache-spark rdd

RDD.union vs SparkContex.union

Mar 24, 2022

apache-spark

Is it possible to use json4s 3.2.11 with Spark 1.3.0?

Feb 21, 2021

scala sbt apache-spark sbt-assembly json4s

Spark sort by key and then group by to get ordered iterable?

Aug 31, 2022

sorting apache-spark

How to compare every element in the RDD with every other element in the RDD ?

Jul 12, 2018

scala apache-spark nearest-neighbor

How do I flatMap a row of arrays into multiple rows?

Apr 16, 2022

apache-spark apache-spark-sql

UPDATE Cassandra table using spark cassandra connector

Sep 05, 2018

scala apache-spark cassandra-2.0 apache-spark-sql spark-cassandra-connector

How to add two Sparse Vectors in Spark using Python

Oct 20, 2022

python apache-spark sparse-matrix

Spark executor on yarn-client does not take executor core count configuration.

Jan 12, 2020

apache-spark hadoop-yarn

Spark DataFrame filtering: retain element belonging to a list

Aug 31, 2022

scala apache-spark dataframe apache-spark-sql apache-zeppelin

Checkpointing In ALS Spark Scala

Oct 30, 2022

scala apache-spark hdfs apache-spark-mllib

SparkSQL sql syntax for nth item in array

Aug 28, 2022

python apache-spark pyspark apache-spark-sql

How do I collect a List of Strings from spark DataFrame Column after a GroupBy operation?

Oct 02, 2022

java apache-spark apache-spark-sql

Spark remove duplicate rows from DataFrame [duplicate]

Nov 05, 2022

scala apache-spark dataframe apache-spark-sql

Predict clusters from data using Spark MLlib KMeans

May 26, 2022

apache-spark k-means apache-spark-mllib

RandomForestClassifier was given input with invalid label column error in Apache Spark

Mar 14, 2022

scala apache-spark machine-learning random-forest apache-spark-mllib

What does container/resource allocation mean in Hadoop and in Spark when running on Yarn?

Oct 27, 2022

hadoop apache-spark hadoop-yarn hadoop2

Class org.apache.hadoop.fs.s3native.NativeS3FileSystem not found (Spark 1.6 Windows)

Sep 15, 2022

windows amazon-s3 apache-spark windows-10 pyspark

save dataframe as external hive table

Oct 14, 2022

apache-spark hive apache-spark-sql spark-dataframe

How to implement LEAD and LAG in Spark-scala

Jul 04, 2022

scala apache-spark

New posts in apache-spark