Setting spark classpaths on EC2: spark.driver.extraClassPath and spark.executor.extraClassPath

Tags:

Reducing size of application jar by providing spark- classPath for maven dependencies:

My cluster is having 3 ec2 instances on which hadoop and spark is running.If I build jar with maven dependencies, it becomes too large(around 100 MB) which I want to avoid this as Jar is getting replicating on all nodes ,each time I run the job.

To avoid that I have build a maven package as "maven package".For dependency resolution I have downloaded the all maven dependencies on each node and then only provided above below jar paths:

I have added class paths on each node in the "spark-defaults.conf" as

spark.driver.extraClassPath        /home/spark/.m2/repository/com/google/code/gson/gson/2.3.1/gson-2.3.1.jar:/home/spark/.m2/repository/com/datastax/cassandra/cassandra-driver-core/2.1.5/cassandra-driver-core-2.1.5.jar:/home/spark/.m2/repository/com/google/guava/guava/16.0.1/guava-16.0.1.jar:/home/spark/.m2/repository/com/google/collections/google-collections/1.0/google-collections-1.0.jar:/home/spark/.m2/repository/com/datastax/spark/spark-cassandra-connector-java_2.10/1.2.0-rc1/spark-cassandra-connector-java_2.10-1.2.0-rc1.jar:/home/spark/.m2/repository/com/datastax/spark/spark-cassandra-connector_2.10/1.2.0-rc1/spark-cassandra-connector_2.10-1.2.0-rc1.jar:/home/spark/.m2/repository/org/apache/cassandra/cassandra-thrift/2.1.3/cassandra-thrift-2.1.3.jar:/home/spark/.m2/repository/org/joda/joda-convert/1.2/joda-convert-1.2.jar

It has worked,locally on single node. Still i am getting this error.Any help will be appreciated.

619

asked Jul 29 '15 13:07

Abhinandan Satpute

1 Answers

Finally, I was able to solve the problem. I have created application jar using "mvn package" instead of "mvn clean compile assembly:single ",so that it will not download the maven dependencies while creating jar(But need to provide these jar/dependencies run-time) which resulted in small size Jar(as there is only reference of dependencies).

Then, I have added below two parameters in spark-defaults.conf on each node as:

spark.driver.extraClassPath     /home/spark/.m2/repository/com/datastax/cassandra/cassandra-driver-core/2.1.7/cassandra-driver-core-2.1.7.jar:/home/spark/.m2/repository/com/googlecode/json-simple/json-simple/1.1/json-simple-1.1.jar:/home/spark/.m2/repository/com/google/code/gson/gson/2.3.1/gson-2.3.1.jar:/home/spark/.m2/repository/com/google/guava/guava/16.0.1/guava-16.0.1.jar

spark.executor.extraClassPath     /home/spark/.m2/repository/com/datastax/cassandra/cassandra-driver-core/2.1.7/cassandra-driver-core-2.1.7.jar:/home/spark/.m2/repository/com/googlecode/json-simple/json-simple/1.1/json-simple-1.1.jar:/home/spark/.m2/repository/com/google/code/gson/gson/2.3.1/gson-2.3.1.jar:/home/spark/.m2/repository/com/google/guava/guava/16.0.1/guava-16.0.1.jar

So question arises that,how application JAR will get the maven dependencies(required jar's) run-time?

For that I have downloaded all required dependencies on each node using mvn clean compile assembly:single in advance.

198

answered Sep 24 '22 19:09

Abhinandan Satpute

Related questions
                            
                                Getting existing mapreduce job from cluster (the job could be running or completed)
                            
                                Distributed Job scheduling, management, and reporting
                            
                                Write pandas table to impala
                            
                                Remove Empty Partitions from Spark RDD
                            
                                Spark 1.5.2 and SLF4J StaticLoggerBinder
                            
                                Kafka -> Flink DataStream -> MongoDB
                            
                                Spark Shell - __spark_libs__.zip does not exist
                            
                                Integrate key-value database with Spark
                            
                                Error in hadoop jobs due to hive query error
                            
                                hadoop map reduce job with HDFS input and HBASE output
                            
                                SQOOP SQLSERVER Failed to load driver " appropriate connection manager is not being set"
                            
                                what are the differences zookeeper, journal node tasks and quorum journal manager in hadoop?
                            
                                Spark Job running on Yarn Cluster java.io.FileNotFoundException: File does not exits , eventhough the file exits on the master node
                            
                                Working with input splits(HADOOP)
                            
                                What is the meaning of EOF exceptions in hadoop namenode connections from hbase/filesystem?
                            
                                Hadoop HDFS - Cannot connect to port on master
                            
                                problems running simple map-reduce hadoop examples in cygwin
                            
                                Join of two datasets in Mapreduce/Hadoop
                            
                                Differences between hadoop jar and yarn -jar
                            
                                Send KafkaProducer from local machine to hortonworks sandbox on virtualbox

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

Setting spark classpaths on EC2: spark.driver.extraClassPath and spark.executor.extraClassPath

Tags:

classpath

maven-3

apache-spark

hadoop

Abhinandan Satpute

People also ask

1 Answers

Abhinandan Satpute

Recent Activity

Donate For Us