I have the following case class: <pre class="prettyprint"><code>case class User(userId: String) </code></pre> and the following schema: <pre class="prettyprint"><code>+--------------------+------------------+ | col_name| data_type| +--------------------+------------------+ | user_id| string| +--------------------+------------------+ </code></pre> When I try to convert a <code>DataFrame</code> to a typed <code>Dataset[User]</code> with <code>spark.read.table("MyTable").as[User]</code>, I get an error that the field names mismatch: <pre class="prettyprint"><code>Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve ''`user_id`' given input columns: [userId];; </code></pre> Is there any simple way to solve this without breaking scala idioms and naming my fields <code>user_id</code>? Of course, my real table has a lot of more fields, and I have a lot more case classes / tables, so it's not feasible to manually define an <code>Encoder</code> for each case class (And I don't know macros well-enough, so that's out of a question; though I'm happy to use one if such exists!). I feel like I'm missing a very obvious "convert snake_case to camelCase=true" option, since one exists in practically any ORM I've worked with.

<pre class="prettyprint"><code>scala> val df = Seq(("Eric" ,"Theodore", "Cartman"), ("Butters", "Leopold", "Stotch")).toDF.select(concat($"_1", lit(" "), ($"_2")) as "first_and_middle_name", $"_3" as "last_name") df: org.apache.spark.sql.DataFrame = [first_and_middle_name: string, last_name: string] scala> df.show +---------------------+---------+ |first_and_middle_name|last_name| +---------------------+---------+ | Eric Theodore| Cartman| | Butters Leopold| Stotch| +---------------------+---------+ scala> val ccnames = df.columns.map(sc => {val ccn = sc.split("_") | (ccn.head +: ccn.tail.map(_.capitalize)).mkString | }) ccnames: Array[String] = Array(firstAndMiddleName, lastName) scala> df.toDF(ccnames: _*).show +------------------+--------+ |firstAndMiddleName|lastName| +------------------+--------+ | Eric Theodore| Cartman| | Butters Leopold| Stotch| +------------------+--------+ </code></pre> EDIT: Would this help? Defining a single function that takes loader: String => DataFrame and path: String. <pre class="prettyprint"><code>scala> val parquetloader = spark.read.parquet _ parquetloader: String => org.apache.spark.sql.DataFrame = <function1> scala> val tableloader = spark.read.table _ tableloader: String => org.apache.spark.sql.DataFrame = <function1> scala> val textloader = spark.read.text _ textloader: String => org.apache.spark.sql.DataFrame = <function1> // csv loader and others def snakeCaseToCamelCaseDataFrameColumns(path: String, loader: String => DataFrame): DataFrame = { val ccnames = loader(path).columns.map(sc => {val ccn = sc.split("_") (ccn.head +: ccn.tail.map(_.capitalize)).mkString }) df.toDF(ccnames: _*) } scala> :paste // Entering paste mode (ctrl-D to finish) def snakeCaseToCamelCaseDataFrameColumns(path: String, loader: String => DataFrame): DataFrame = { val ccnames = loader(path).columns.map(sc => {val ccn = sc.split("_") (ccn.head +: ccn.tail.map(_.capitalize)).mkString }) df.toDF(ccnames: _*) } // Exiting paste mode, now interpreting. snakeCaseToCamelCaseDataFrameColumns: (path: String, loader: String => org.apache.spark.sql.DataFrame)org.apache.spark.sql.DataFrame val oneDF = snakeCaseToCamelCaseDataFrameColumns(tableloader("/path/to/table")) val twoDF = snakeCaseToCamelCaseDataFrameColumns(parquetloader("/path/to/parquet/file")) </code></pre>

Scala spark: how to use dataset for a case class with the schema has snake_case?

Tags:

scala

apache-spark

apache-spark-dataset

I have the following case class:

case class User(userId: String)

and the following schema:

+--------------------+------------------+
|            col_name|         data_type|
+--------------------+------------------+
|             user_id|            string|
+--------------------+------------------+

When I try to convert a DataFrame to a typed Dataset[User] with spark.read.table("MyTable").as[User], I get an error that the field names mismatch:

Exception in thread "main" org.apache.spark.sql.AnalysisException:
    cannot resolve ''`user_id`' given input columns: [userId];;

Is there any simple way to solve this without breaking scala idioms and naming my fields user_id? Of course, my real table has a lot of more fields, and I have a lot more case classes / tables, so it's not feasible to manually define an Encoder for each case class (And I don't know macros well-enough, so that's out of a question; though I'm happy to use one if such exists!).

I feel like I'm missing a very obvious "convert snake_case to camelCase=true" option, since one exists in practically any ORM I've worked with.

553

asked Apr 16 '18 08:04

Gal

1 Answers

scala> val df = Seq(("Eric" ,"Theodore", "Cartman"), ("Butters", "Leopold", "Stotch")).toDF.select(concat($"_1", lit(" "), ($"_2")) as "first_and_middle_name", $"_3" as "last_name")
df: org.apache.spark.sql.DataFrame = [first_and_middle_name: string, last_name: string]

scala> df.show
+---------------------+---------+
|first_and_middle_name|last_name|
+---------------------+---------+
|        Eric Theodore|  Cartman|
|      Butters Leopold|   Stotch|
+---------------------+---------+


scala> val ccnames = df.columns.map(sc => {val ccn = sc.split("_")
    | (ccn.head +: ccn.tail.map(_.capitalize)).mkString
    | })
ccnames: Array[String] = Array(firstAndMiddleName, lastName)

scala> df.toDF(ccnames: _*).show
+------------------+--------+
|firstAndMiddleName|lastName|
+------------------+--------+
|     Eric Theodore| Cartman|
|   Butters Leopold|  Stotch|
+------------------+--------+

EDIT: Would this help? Defining a single function that takes loader: String => DataFrame and path: String.

scala> val parquetloader = spark.read.parquet _
parquetloader: String => org.apache.spark.sql.DataFrame = <function1>

scala> val tableloader = spark.read.table _
tableloader: String => org.apache.spark.sql.DataFrame = <function1>

scala> val textloader = spark.read.text _
textloader: String => org.apache.spark.sql.DataFrame = <function1>

// csv loader and others

def snakeCaseToCamelCaseDataFrameColumns(path: String, loader: String => DataFrame): DataFrame = {
  val ccnames = loader(path).columns.map(sc => {val ccn = sc.split("_")
    (ccn.head +: ccn.tail.map(_.capitalize)).mkString
    })
  df.toDF(ccnames: _*)
}

scala> :paste
// Entering paste mode (ctrl-D to finish)

def snakeCaseToCamelCaseDataFrameColumns(path: String, loader: String => DataFrame): DataFrame = {
      val ccnames = loader(path).columns.map(sc => {val ccn = sc.split("_")
        (ccn.head +: ccn.tail.map(_.capitalize)).mkString
        })
      df.toDF(ccnames: _*)
    }

// Exiting paste mode, now interpreting.

snakeCaseToCamelCaseDataFrameColumns: (path: String, loader: String => org.apache.spark.sql.DataFrame)org.apache.spark.sql.DataFrame

val oneDF = snakeCaseToCamelCaseDataFrameColumns(tableloader("/path/to/table"))
val twoDF = snakeCaseToCamelCaseDataFrameColumns(parquetloader("/path/to/parquet/file"))

answered Sep 17 '22 15:09

C.S.Reddy Gadipally

Related questions
                            
                                How to preserve request contextual data in Akka
                            
                                Checking for varargs type ascription in Scala macros
                            
                                SBT run differences between scala and java?
                            
                                Kafka: Cant Create Multiple Stream Consumers
                            
                                Are there any ways to generate Scala code from Protobuf files in a Maven build?
                            
                                Scala Editor in Eclipse doesn't work
                            
                                Humane guidance for sbt DSL
                            
                                How to reference the name of a val in a Object class in scaladoc?
                            
                                Python vs Scala (for Spark jobs)
                            
                                Spark driver disassociated and removed by the master
                            
                                Play json merge formats for case class with more than 22 fields
                            
                                Functional Tests in Play 2.4.6 when using compile time DI
                            
                                Why isn't there a lengthCompare method on Scala Set?
                            
                                LogisticRegressionModel prediction manually
                            
                                Speed up collaborative filtering for large dataset in Spark MLLib
                            
                                Spark load model and continue training
                            
                                Scala (java) grpc async interceptor state propagation
                            
                                Circe encoder/decoder for subclasses types
                            
                                Strange timeout with ScalaTest's Selenium DSL
                            
                                Calling clojure code from a scala sbt task

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With