Converting html to text with Python

Tags:

I am trying to convert an html block to text using Python.

Input:

<div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p> <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>

Desired output:

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa

Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

I tried the html2text module without much success:

#!/usr/bin/env python  import urllib2 import html2text from BeautifulSoup import BeautifulSoup  soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read())  txt = soup.find('div', {'class' : 'body'})  print(html2text.html2text(txt))

The txt object produces the html block above. I'd like to convert it to text and print it on the screen.

916

asked Feb 04 '13 19:02

Aaron Bandelli

1 Answers

soup.get_text() outputs what you want:

from bs4 import BeautifulSoup soup = BeautifulSoup(html) print(soup.get_text())

output:

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

To keep newlines:

print(soup.get_text('\n'))

To be identical to your example, you can replace a newline with two newlines:

soup.get_text().replace('\n','\n\n')

113

answered Oct 05 '22 15:10

root

Related questions
                            
                                Call and receive output from Python script in Java?
                            
                                How do I manage third-party Python libraries with Google App Engine? (virtualenv? pip?)
                            
                                Altering an Enum field using Alembic
                            
                                check how many elements are equal in two numpy arrays python
                            
                                Convert python datetime to timestamp in milliseconds
                            
                                Why is there a difference between `0--3//2` and `--3//2`?
                            
                                Python, want logging with log rotation and compression
                            
                                How to fix Selenium WebDriverException: The browser appears to have exited before we could connect?
                            
                                Getting computer's UTC offset in Python
                            
                                Can not increment global variable from function in python [duplicate]
                            
                                Python: find position of element in array
                            
                                python argparse: unrecognized arguments
                            
                                unknown error: session deleted because of page crash from unknown error: cannot determine loading status from tab crashed with ChromeDriver Selenium
                            
                                How to show matplotlib plots?
                            
                                Ignore divide by 0 warning in NumPy
                            
                                Pyspark: display a spark data frame in a table format
                            
                                "ImportError: file_cache is unavailable" when using Python client for Google service account file_cache
                            
                                How to repeat Pandas data frame?
                            
                                Running windows shell commands with python
                            
                                Python: How to sort a list of dictionaries by several values?

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With

Converting html to text with Python

Tags:

python

html

text

beautifulsoup

web-scraping

Aaron Bandelli

People also ask

1 Answers

root

Recent Activity

Donate For Us