apache-spark tutorials and guides

How to parse datetime that is coming in Arabic text (٠٤-٢٥-٢٠٢١) to English dates in Pyspark

May 26, 2022

python apache-spark pyspark

NullPointerException in spark-sql

May 19, 2019

java apache-spark bigdata

Issue understanding splitting data in Scala using "randomSplit" for Machine Learning purpose

Jul 02, 2022

scala apache-spark apache-spark-mllib

How to turn a known structured RDD to Vector

Nov 09, 2022

scala vector apache-spark distributed-computing rdd

Passing Functions to Spark: What is the risk of referencing the whole object?

Sep 13, 2022

scala apache-spark

How to achieve sort by value in spark java

Jul 19, 2022

java sorting apache-spark

How to map filenames to RDD using sc.textFile("s3n://bucket/*.csv")?

Sep 16, 2019

amazon-s3 mapping apache-spark filenames rdd

Spark configuration, what is the difference of SPARK_DRIVER_MEMORY, SPARK_EXECUTOR_MEMORY, and SPARK_WORKER_MEMORY?

Jul 13, 2018

linux memory apache-spark environment-variables config

Cassandra storage internal

Oct 15, 2022

cassandra apache-spark time-series cql

Apache Spark: Error while starting PySpark

Jan 21, 2022

python hadoop apache-spark pyspark

Spark Streaming on a S3 Directory

Nov 18, 2022

scala amazon-web-services amazon-s3 apache-spark spark-streaming

Spark Cassandra connector filtering with IN clause

Dec 20, 2020

java cassandra apache-spark cql spark-cassandra-connector

How to do performance profiling of Hadoop cluster

Apr 06, 2022

java hadoop mapreduce apache-spark profiling

Spark mllib predicting weird number or NaN

Sep 14, 2022

python apache-spark pyspark apache-spark-mllib gradient-descent

Is HDFS necessary for Spark workloads?

Apr 29, 2022

hadoop apache-spark hdfs mesos mesosphere

How to use window functions in PySpark using DataFrames?

Oct 29, 2022

python apache-spark dataframe apache-spark-sql

How to include spark tests as Maven dependency

Nov 19, 2021

maven apache-spark

dataframe filter gives NullPointerException

Jul 21, 2022

scala apache-spark dataframe nullpointerexception apache-spark-sql

spark finding max value and the associated key

Apr 07, 2021

python apache-spark tuples max pyspark

Direct Kafka Stream with PySpark (Apache Spark 1.6)

Sep 23, 2022

apache-spark apache-kafka pyspark spark-streaming

New posts in apache-spark