How to connect Apache Kafka with Amazon S3?

Tags:

I want to store data from Kafka into a bucket s3 using Kafka Connect. I had already a Kafka's topic running and I had a bucket s3 created. My topic has data on Protobuffer, I tried with https://github.com/qubole/streamx and I obtained the next error:

 [2018-10-04 13:35:46,512] INFO Revoking previously assigned partitions [] for group connect-s3-sink (org.apache.kafka.clients.consumer.internals.ConsumerCoordinator:280)
 [2018-10-04 13:35:46,512] INFO (Re-)joining group connect-s3-sink (org.apache.kafka.clients.consumer.internals.AbstractCoordinator:326)
 [2018-10-04 13:35:46,645] INFO Successfully joined group connect-s3-sink with generation 1 (org.apache.kafka.clients.consumer.internals.AbstractCoordinator:434)
 [2018-10-04 13:35:46,692] INFO Setting newly assigned partitions [ssp.impressions-11, ssp.impressions-10, ssp.impressions-7, ssp.impressions-6, ssp.impressions-9, ssp.impressions-8, ssp.impressions-3, ssp.impressions-2, ssp.impressions-5, ssp.impressions-4, ssp.impressions-1, ssp.impressions-0] for Group connect-s3-sink(org.apache.kafka.clients.consumer.internals.ConsumerCoordinator:219)
 [2018-10-04 13:35:47,193] ERROR Task s3-sink-0 threw an uncaught an unrecoverable exception (org.apache.kafka.connect.runtime.WorkerTask:142)
 java.lang.NullPointerException
    at io.confluent.connect.hdfs.HdfsSinkTask.close(HdfsSinkTask.java:122)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.commitOffsets(WorkerSinkTask.java:290)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.closePartitions(WorkerSinkTask.java:421)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.execute(WorkerSinkTask.java:146)
    at org.apache.kafka.connect.runtime.WorkerTask.doRun(WorkerTask.java:140)
    at org.apache.kafka.connect.runtime.WorkerTask.run(WorkerTask.java:175)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
[2018-10-04 13:35:47,194] ERROR Task is being killed and will not recover until manually restarted (org.apache.kafka.connect.runtime.WorkerTask:143)
[2018-10-04 13:35:51,235] INFO Reflections took 6844 ms to scan 259 urls, producing 13517 keys and 95788 values (org.reflections.Reflections:229)

I did the next steps:

I cloned the repository.
mvn DskipTests package

nano config/connect-standalone.properties

bootstrap.servers=ip-myip.ec2.internal:9092
key.converter=com.qubole.streamx.ByteArrayConverter
value.converter=com.qubole.streamx.ByteArrayConverter

nano config/quickstart-s3.properties

name=s3-sink 
connector.class=com.qubole.streamx.s3.S3SinkConnector
format.class=com.qubole.streamx.SourceFormat tasks.max=1
topics=ssp.impressions
flush.size=3
s3.url=s3://myaccess_key:mysecret_key@mybucket/demo

connect-standalone /etc/kafka/connect-standalone.properties quickstart-s3.properties

I would like to know if that I did is okay or another way to keep data into S3 from Kafka.

682

asked Oct 03 '18 10:10

Eric Bellet

1 Answers

You can use Kafka Connect to do this integration, with the Kafka Connect S3 connector.

Kafka Connect is part of Apache Kafka, and the S3 connector is an open-source connector available either standalone or as part of Confluent Platform.

For general information and examples of Kafka Connect, this series of articles might help:

https://www.confluent.io/blog/simplest-useful-kafka-connect-data-pipeline-world-thereabouts-part-1/
https://www.confluent.io/blog/blogthe-simplest-useful-kafka-connect-data-pipeline-in-the-world-or-thereabouts-part-2/
https://www.confluent.io/blog/simplest-useful-kafka-connect-data-pipeline-world-thereabouts-part-3/

Disclaimer: I work for Confluent, and wrote the above blog articles.

April 2020: I have recorded a video showing how to use the S3 sink: https://rmoff.dev/kafka-s3-video

172

answered Oct 16 '22 11:10

Robin Moffatt

Related questions
                            
                                What is the equivalent of Java's Stream#Peek method in Linq C#?
                            
                                Getting versionCode and VersionName from Google Play
                            
                                Why does Spring Security not provide character array parameters for passwords
                            
                                Unreachable objects on the stack cannot be garbage collected
                            
                                How to call assertEquals with Double Epsilon/Precision in Kotlin?
                            
                                AspectJ - change value of method parameter
                            
                                How to map multiple fields into one destination field using modelmapper
                            
                                No SpringExtension.class
                            
                                Is it possible to connect to spring boot embedded ActiveMQ instance from another application(started in separate process)?
                            
                                Do I have to set both sides for a bidirectional relationship?
                            
                                Robot.mouseMove not moving to specified location properly
                            
                                @Cachable on methods without input parameters?
                            
                                Mocking RestTemplateBuilder and RestTemplate in Spring integration test
                            
                                How to rewrite for-each loop into stream?
                            
                                When to use Request timeout and Gateway timeout
                            
                                List<Object> variable being assignment compatible with other generic Lists like List<String> in Java
                            
                                Slack request verification: Can't compute matching request digest using signed secret
                            
                                SchemaSpy PostgreSQL - WARN - Connection Failure
                            
                                why there is difference in Heap dump size generated by jmap and jcmd?
                            
                                How to mock UUID.randomUUID() from java.util package?

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

How to connect Apache Kafka with Amazon S3?

Tags:

java

amazon-s3

apache-kafka

apache-kafka-connect

Eric Bellet

People also ask

1 Answers

Robin Moffatt

Recent Activity

Donate For Us