filter spark dataframe with row field that is an array of strings

Tags:

1 Answers

I think if you use where(array_contains(...)) it will work. Here's my result:

scala> import org.apache.spark.SparkContext
import org.apache.spark.SparkContext

scala> import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.DataFrame

scala> def testData (sc: SparkContext): DataFrame = {
     |     val stringRDD = sc.parallelize(Seq
     |      ("""{ "name": "ned", "tags": ["blue", "big", "private"] }""",
     |       """{ "name": "albert", "tags": ["private", "lumpy"] }""",
     |       """{ "name": "zed", "tags": ["big", "private", "square"] }""",
     |       """{ "name": "jed", "tags": ["green", "small", "round"] }""",
     |       """{ "name": "ed", "tags": ["red", "private"] }""",
     |       """{ "name": "fred", "tags": ["public", "blue"] }"""))
     |     val sqlContext = new org.apache.spark.sql.SQLContext(sc)
     |     import sqlContext.implicits._
     |     sqlContext.read.json(stringRDD)
     |   }
testData: (sc: org.apache.spark.SparkContext)org.apache.spark.sql.DataFrame

scala>   
     | val df = testData (sc)
df: org.apache.spark.sql.DataFrame = [name: string, tags: array<string>]

scala> val report = df.select ("*").where (array_contains (df("tags"), "private"))
report: org.apache.spark.sql.DataFrame = [name: string, tags: array<string>]

scala> report.show
+------+--------------------+
|  name|                tags|
+------+--------------------+
|   ned|[blue, big, private]|
|albert|    [private, lumpy]|
|   zed|[big, private, sq...|
|    ed|      [red, private]|
+------+--------------------+

Note that it works if you write where(array_contains(df("tags"), "private")), but if you write where(df("tags").array_contains("private")) (more directly analogous to what you wrote originally) it fails with array_contains is not a member of org.apache.spark.sql.Column. Looking at the source code for Column, I see there's some stuff to handle contains (constructing a Contains instance for that) but not array_contains. Maybe that's an oversight.

175

answered Sep 29 '22 12:09

Robert Dodier

Related questions
                            
                                Unimporting in Scala
                            
                                Difference betwean RegexpParsers,StandardTokenParsers and JavaTokenParsers in scala
                            
                                How to use stackable trait pattern with Akka actors?
                            
                                Is there any advantage to avoiding while loops in Scala?
                            
                                Trying to cross compile a project to Scala 2.11 fails with "error while loading Object, Missing dependency 'object scala in compiler mirror'"
                            
                                In Scala, can generic type parameters be used with *function* definitions?
                            
                                Pattern Matching "case Nil" for Vector
                            
                                Pattern matching on testing expected message
                            
                                Can I code in Dotty in German (or at all) in IntelliJ?
                            
                                How to qualify methods as static in Scala?
                            
                                How can I call another task from my SBT task?
                            
                                How to get the number of workers(executors) in PySpark?
                            
                                Outputting 'null' for Option[T] in play-json serialization when value is None
                            
                                Use cases for different sbt Key operators
                            
                                Nulls in Scala ...why is this possible?
                            
                                Getting subclasses of a sealed trait
                            
                                How to define a function whose output type depends on the input type
                            
                                Spark Build Custom Column Function, user defined function
                            
                                Why do we need to add "fork in run := true" when running Spark SBT application?
                            
                                Is there a way to chain methods which return an Option-Type in a way like getOrElse does but keeps the option-type

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

filter spark dataframe with row field that is an array of strings

Tags:

scala

apache-spark

navicore

People also ask

1 Answers

Robert Dodier

Recent Activity

Donate For Us