How to use Spark SQL filter as a case insensitive filter. For example: <pre class="prettyprint lang-scala prettyprint-override"><code>dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); </code></pre> just return rows that <code>'vendor'</code> column is equal to <code>'fortinet'</code> but i want rows that <code>'vendor'</code> column equal to <code>'fortinet'</code> or <code>'Fortinet'</code> or <code>'foRtinet'</code> or ...

Try to use lower/upper string functions: <pre class="prettyprint"><code>dataFrame.filter(lower(dataFrame.col("vendor")).equalTo("fortinet")) </code></pre> or <pre class="prettyprint"><code>dataFrame.filter(upper(dataFrame.col("vendor")).equalTo("FORTINET")) </code></pre>

Spark SQL case insensitive filter for column conditions

Tags:

apache-spark

apache-spark-sql

How to use Spark SQL filter as a case insensitive filter.

For example:

dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet"));

just return rows that 'vendor' column is equal to 'fortinet' but i want rows that 'vendor' column equal to 'fortinet' or 'Fortinet' or 'foRtinet' or ...

314

asked Jan 20 '16 07:01

Arman

Video Answer

2 Answers

You can either use case-insensitive regex:

val df = sc.parallelize(Seq(
  (1L, "Fortinet"), (2L, "foRtinet"), (3L, "foo")
)).toDF("k", "v")

df.where($"v".rlike("(?i)^fortinet$")).show
// +---+--------+
// |  k|       v|
// +---+--------+
// |  1|Fortinet|
// |  2|foRtinet|
// +---+--------+

or simple equality with lower / upper:

import org.apache.spark.sql.functions.{lower, upper}

df.where(lower($"v") === "fortinet")
// +---+--------+
// |  k|       v|
// +---+--------+
// |  1|Fortinet|
// |  2|foRtinet|
// +---+--------+

df.where(upper($"v") === "FORTINET")
// +---+--------+
// |  k|       v|
// +---+--------+
// |  1|Fortinet|
// |  2|foRtinet|
// +---+--------+

For simple filters I would prefer rlike although performance should be similar, for join conditions equality is a much better choice. See How can we JOIN two Spark SQL dataframes using a SQL-esque "LIKE" criterion? for details.

156

answered Sep 18 '22 08:09

zero323

Try to use lower/upper string functions:

dataFrame.filter(lower(dataFrame.col("vendor")).equalTo("fortinet"))

dataFrame.filter(upper(dataFrame.col("vendor")).equalTo("FORTINET"))

answered Sep 20 '22 08:09

Shawn Guo

Related questions
                            
                                Replace null values in Spark DataFrame
                            
                                Getting the value of a DataFrame column in Spark
                            
                                Apache spark error: not found: value sqlContext
                            
                                Spark Shell "Failed to Initialize Compiler" Error on a mac
                            
                                Add extra hours to timestamp columns in Pyspark data frame [duplicate]
                            
                                Spark SQL: how to cache sql query result without using rdd.cache()
                            
                                How to randomly sample from a Scala list or array?
                            
                                How to filter based on array value in PySpark?
                            
                                How do you automate pyspark jobs on emr using boto3 (or otherwise)?
                            
                                Spark-Shell Startup Errors
                            
                                Amazon s3a returns 400 Bad Request with Spark
                            
                                How to use groupBy to collect rows into a map?
                            
                                Hadoop “Unable to load native-hadoop library for your platform” error on docker-spark?
                            
                                AWS Glue executor memory limit
                            
                                Does SparkSQL support subquery?
                            
                                Pyspark - Aggregation on multiple columns
                            
                                Spark, add new Column with the same value in Scala [duplicate]
                            
                                Zeppelin: How to restart sparkContext in zeppelin
                            
                                How to filter column on values in list in pyspark?
                            
                                Spark Scala: Cannot up cast from string to int as it may truncate

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With