<p>I'm trying to use analytical/window function last_value in Spark Java.</p> <h3>Netezza Query:</h3> <pre class="prettyprint"><code>select sno, name, addr1, addr2, run_dt, last_value(addr1 ignore nulls) over (partition by sno, name, addr1, addr2, run_dt order by beg_ts , end_ts rows between unbounded preceding and unbounded following ) as last_addr1 from daily </code></pre> <h3>We want to implement this query n Spark Java (Without using HiveSQLContext):</h3> <pre class="prettyprint"><code>import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.expressions.Window; import org.apache.spark.sql.expressions.WindowSpec; import org.apache.spark.api.java.function.Function; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.execution.WindowFunctionFrame; SparkConf conf = new SparkConf().setMaster("local").setAppName("Agg"); JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); JavaRDD<Stgdailydtl> daily = sc.textFile("C:\\Testing.txt").map( new Function<String, Stgdailydtl>() { private static final long serialVersionUID = 1L; public Stgdailydtl call(String line) throws Exception { String[] parts = line.split(","); Stgdailydtl daily = new Stgdailydtl(); daily.setSno(Integer.parseInt(parts[0].trim())); ..... return daily; } }); DataFrame schemaDailydtl = sqlContext.createDataFrame(daily, Stgdailydtl.class); schemaDailydtl.registerTempTable("daily"); WindowSpec ws = Window.partitionBy("sno, name, addr1, addr2, run_dt").orderBy("beg_ts , end_ts").rowsBetween(0, 100000); DataFrame df = sqlContext.sql("select sno, name, addr1, addr2, run_dt " + "row_number() over(partition by mach_id, msrmt_gbl_id, msrmt_dsc, elmt_dsc, end_cptr_dt order by beg_cptr_ts, end_cptr_ts) from daily "); </code></pre> <p>}</p> <p>}</p> <h3>Error:</h3> <pre class="prettyprint"><code>Exception in thread "main" java.lang.RuntimeException: [1.110] failure: ``union'' expected but `(' found select stg.mach_id, stg.msrmt_gbl_id, stg.msrmt_dsc, stg.elmt_dsc, stg.elmt_dsc_grp_concat, row_number() over(partition by mach_id, msrmt_gbl_id, msrmt_dsc, elmt_dsc, end_cptr_dt order by beg_cptr_ts, end_cptr_ts) from stgdailydtl stg ^ at scala.sys.package$.error(package.scala:27) </code></pre> <p>I could not understand how to use WindowSpec/Window object. Please suggest on this. Thanks for your help</p>

<p>You're mixing dataframe syntax and sql syntax - specifically you created a WindowSpec but then didn't use it.</p> <p>Import <code>org.apache.spark.sql.functions</code> to get the <code>row_number</code> function, then create the column that you're trying to select:</p> <pre class="prettyprint"><code>Column rowNum = functions.row_number().over(ws) </code></pre> <p>Then select it using the dataframe API:</p> <pre class="prettyprint"><code>df.select(each, column, you, want, rowNum) </code></pre> <p>My syntax may be slightly off, I'm used to scala or python, but the gist is something like that.</p>

How to use Analytic/Window Functions in Spark Java?

Netezza Query:

select sno, name, addr1, addr2, run_dt, 
last_value(addr1 ignore nulls) over (partition by sno, name, addr1, addr2, run_dt order by beg_ts , end_ts rows between unbounded preceding and unbounded following  ) as last_addr1
from daily

We want to implement this query n Spark Java (Without using HiveSQLContext):

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.expressions.Window;
import org.apache.spark.sql.expressions.WindowSpec;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.execution.WindowFunctionFrame;

    SparkConf conf = new SparkConf().setMaster("local").setAppName("Agg");
    JavaSparkContext sc = new JavaSparkContext(conf);
    SQLContext sqlContext = new SQLContext(sc);


    JavaRDD<Stgdailydtl> daily = sc.textFile("C:\\Testing.txt").map(
              new Function<String, Stgdailydtl>() {
                  private static final long serialVersionUID = 1L;
                public Stgdailydtl call(String line) throws Exception {
                  String[] parts = line.split(",");

                  Stgdailydtl daily = new Stgdailydtl();
                  daily.setSno(Integer.parseInt(parts[0].trim()));
                  .....

                  return daily;
                }
              });
DataFrame schemaDailydtl = sqlContext.createDataFrame(daily, Stgdailydtl.class);
schemaDailydtl.registerTempTable("daily");
WindowSpec ws = Window.partitionBy("sno, name, addr1, addr2, run_dt").orderBy("beg_ts , end_ts").rowsBetween(0, 100000);
DataFrame df = sqlContext.sql("select sno, name, addr1, addr2, run_dt "
            + "row_number() over(partition by mach_id, msrmt_gbl_id, msrmt_dsc, elmt_dsc, end_cptr_dt order by beg_cptr_ts, end_cptr_ts) from daily ");

}

Error:

Exception in thread "main" java.lang.RuntimeException: [1.110] failure: ``union'' expected but `(' found

select stg.mach_id, stg.msrmt_gbl_id, stg.msrmt_dsc, stg.elmt_dsc, stg.elmt_dsc_grp_concat, row_number() over(partition by mach_id, msrmt_gbl_id, msrmt_dsc, elmt_dsc, end_cptr_dt order by beg_cptr_ts, end_cptr_ts) from stgdailydtl stg 
                                                                                                             ^
    at scala.sys.package$.error(package.scala:27)

I could not understand how to use WindowSpec/Window object. Please suggest on this. Thanks for your help

732

asked Oct 24 '15 14:10

ND User

1 Answers

You're mixing dataframe syntax and sql syntax - specifically you created a WindowSpec but then didn't use it.

Import org.apache.spark.sql.functions to get the row_number function, then create the column that you're trying to select:

Column rowNum = functions.row_number().over(ws)

Then select it using the dataframe API:

df.select(each, column, you, want, rowNum)

My syntax may be slightly off, I'm used to scala or python, but the gist is something like that.

109

answered Oct 18 '22 02:10

Tristan Reid

Related questions
                            
                                Creating a for loop for showing dynamic data
                            
                                Python numpy: perform function on each pair of columns in a numpy 2-D array?
                            
                                Passing default arguments through nested functions in R
                            
                                Is there difference between scanf("%c",&x) and x=getchar()?
                            
                                Call AWS Lambda function from React-Native
                            
                                In R, the same code cannot be knit out in package Vignette file. "list" object cannot be coerced to type integer
                            
                                Help with dynamic range compression function (audio)
                            
                                How can I make Ruby 1.8 downcase non-latin characters?
                            
                                f2py array valued functions
                            
                                Overriding a function without removing static properties
                            
                                Access overridden global variable inside a function
                            
                                can't use an undefined value as a symbol perl
                            
                                Bash check element in array for elements in another array
                            
                                What do brackets surrounding function name mean?
                            
                                How can I check since which Matlab version a function exists?
                            
                                PowerShell Executing a function within a Script Block using Start-Process does weird things with double quotes
                            
                                Creating a matrix from a function handle (MATLAB)
                            
                                C++ constructors and implicit string conversion
                            
                                macOS Keyboard Shortcuts in Swift
                            
                                Fortran polymorphism, functions and allocation

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

How to use Analytic/Window Functions in Spark Java?

Tags:

function

apache-spark

analytical