writing pandas dataframe with timedeltas to parquet

Tags:

I can't seem to write a pandas dataframe containing timedeltas to a parquet file through pyarrow.

The pyarrow documentation specifies that it can handle numpy timedeltas64 with ms precision. However, when I build a dataframe from numpy's timedelta64[ms] the datatype of that column is timedelta64[ns].

Pyarrow then throws an error because of this.

Is this a bug in pandas or pyarrow? Is there an easy fix for this?

The following code:

df = pd.DataFrame({
    'timedelta': np.arange(start=0, stop=1000,
        step=10,
         dtype='timedelta64[ms]')
})

print(df.timedelta.dtypes)

df.to_parquet('test.parquet', engine='pyarrow', compression='gzip')

produces the following output: timedelta64[ns] and error:

---------------------------------------------------------------------------
ArrowNotImplementedError                  Traceback (most recent call last)
<ipython-input-41-7df28b306c1e> in <module>()
      3                                    step=10,
      4                                    dtype='timedelta64[ms]')
----> 5             }).to_parquet('test.parquet', engine='pyarrow', compression='gzip')

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/core/frame.py in to_parquet(self, fname, engine, compression, **kwargs)
   1940         from pandas.io.parquet import to_parquet
   1941         to_parquet(self, fname, engine,
-> 1942                    compression=compression, **kwargs)
   1943 
   1944     @Substitution(header='Write out the column names. If a list of strings '

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/io/parquet.py in to_parquet(df, path, engine, compression, **kwargs)
    255     """
    256     impl = get_engine(engine)
--> 257     return impl.write(df, path, compression=compression, **kwargs)
    258 
    259 

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/io/parquet.py in write(self, df, path, compression, coerce_timestamps, **kwargs)
    116 
    117         else:
--> 118             table = self.api.Table.from_pandas(df)
    119             self.api.parquet.write_table(
    120                 table, path, compression=compression,

table.pxi in pyarrow.lib.Table.from_pandas()

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in dataframe_to_arrays(df, schema, preserve_index, nthreads)
    369         arrays = [convert_column(c, t)
    370                   for c, t in zip(columns_to_convert,
--> 371                                   convert_types)]
    372     else:
    373         from concurrent import futures

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in <listcomp>(.0)
    368     if nthreads == 1:
    369         arrays = [convert_column(c, t)
--> 370                   for c, t in zip(columns_to_convert,
    371                                   convert_types)]
    372     else:

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in convert_column(col, ty)
    364 
    365     def convert_column(col, ty):
--> 366         return pa.array(col, from_pandas=True, type=ty)
    367 
    368     if nthreads == 1:

array.pxi in pyarrow.lib.array()

array.pxi in pyarrow.lib._ndarray_to_array()

error.pxi in pyarrow.lib.check_status()

ArrowNotImplementedError: Unsupported numpy type 22

868

asked Jul 13 '18 19:07

Swier

1 Answers

fastparquet supports the timedelta type.

First install fastparquet, eg.:

pip install fastparquet

Then you can use this:

df.to_parquet('test.parquet.gzip', engine='fastparquet', compression='gzip')

170

answered Sep 20 '22 14:09

Arjaan Buijk

Related questions
                            
                                Running aiohttp server using gunicorn
                            
                                Epoch counter with TensorFlow Dataset API
                            
                                py.test: Show local variables in Jenkins
                            
                                ctags, vim and python code
                            
                                Do Django Model Managers require using=self._db
                            
                                How to return all the columns with flask-sqlalchemy query join from two tables
                            
                                How to refresh Selenium Webdriver DOM data without reloading page?
                            
                                Neural network backprop not fully training
                            
                                virtualenv on macOS uses nonexistent python interpreter
                            
                                How to use shared memory in python and C/C++
                            
                                Python re.sub() is replacing the full match even when using non-capturing groups [duplicate]
                            
                                Avoid overlapping colorbar in xarray facet grid plot
                            
                                Setting a class __name__ declaratively
                            
                                Packaging Python dependencies in subdirectory for AWS Lambda
                            
                                Find all descendants for points in Python
                            
                                Boto3 Kinesis Video GetMedia and OpenCV
                            
                                SciPy skewnormal fitting
                            
                                Serverless: Using a private Python package as a dependency
                            
                                PyTorch : predict single example
                            
                                How to Do a Simple CLI Query for a Saved Estimator Model?

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

writing pandas dataframe with timedeltas to parquet

Tags:

python

pandas

parquet

pyarrow

Swier

People also ask

1 Answers

Arjaan Buijk

Recent Activity

Donate For Us