<p>For example, I'd like to pull out only Child1, Child2, and Child3 out of the below list where it is after the first instance of h3 and before the next tag of h3</p> <pre class="prettyprint"><code><h3>HeaderName1<h3> <ul class="prodoplist"> <li>Parent</li> <li class="lev1">Child1</li> <li class="lev1">Child2</li> <li class="lev1">Child3</li> </ul> <h3>HeaderName2<h3> <ul class="prodoplist"> <li>Parent2</li> <li class="lev1">Child4</li> <li class="lev1">Child5</li> <li class="lev1">Child6</li> </ul> </code></pre>

<p>using findChildren like:</p> <pre class="prettyprint"><code>for ul in soup.find_all('ul'): print 'ul start' for idx, li in enumerate(ul.findChildren('li')): if idx in range(3): print li </code></pre> <p>output:</p> <pre class="prettyprint"><code>ul start <li>Parent</li> <li class="lev1">Child1</li> <li class="lev1">Child2</li> ul start <li>Parent2</li> <li class="lev1">Child4</li> <li class="lev1">Child5</li> </code></pre> <p>however, as in most cases lxml and xpath is a superior solution:</p> <pre class="prettyprint"><code>from lxml import html doc = html.parse('input.html') print [ul.xpath('li[1] | li[2] | li[3]') for ul in doc.xpath('//ul')] </code></pre>

<p>This should work . </p> <pre class="prettyprint"><code>import re from BeautifulSoup import BeautifulSoup html_doc = '<h3>HeaderName1</h3><ul class="prodoplist"><li>Parent</li><li class="lev1">Child1</li><li class="lev1">Child2</li><li class="lev1">Child3</li></ul> <h3>HeaderName2</h3><ul class="prodoplist"><li>Parent2</li><li class="lev1">Child4</li><li class="lev1">Child5</li><li class="lev1">Child6</li></ul>' m = re.search(r'<h3>.*?<h3>', html_doc, re.DOTALL) s = m.start() e = m.end() - len('<h3>') target_html = html_doc[s:e] new_bs = BeautifulSoup(target_html) ul_eles = new_bs.findAll('ul', attrs={'class' : 'prodoplist'}) for ul_ele in ul_eles: li_eles = new_bs.findAll('li', attrs={'class' : 'lev1'}) for li_ele in li_eles: print li_ele.text </code></pre>

How do you find all list items between two tags with BeautifulSoup?

Tags:

python

beautifulsoup

For example, I'd like to pull out only Child1, Child2, and Child3 out of the below list where it is after the first instance of h3 and before the next tag of h3

<h3>HeaderName1<h3>
<ul class="prodoplist">
 <li>Parent</li>
 <li class="lev1">Child1</li>
 <li class="lev1">Child2</li>
 <li class="lev1">Child3</li>
  </ul>
  <h3>HeaderName2<h3>
   <ul class="prodoplist">
   <li>Parent2</li>
   <li class="lev1">Child4</li>
   <li class="lev1">Child5</li>
   <li class="lev1">Child6</li>
   </ul>

877

asked Jan 29 '14 04:01

Chris

3 Answers

using findChildren like:

for ul in soup.find_all('ul'):
    print 'ul start'
    for idx, li in enumerate(ul.findChildren('li')):
        if idx in range(3):
            print li

output:

ul start
<li>Parent</li>
<li class="lev1">Child1</li>
<li class="lev1">Child2</li>
ul start
<li>Parent2</li>
<li class="lev1">Child4</li>
<li class="lev1">Child5</li>

however, as in most cases lxml and xpath is a superior solution:

from lxml import html
doc = html.parse('input.html')
print [ul.xpath('li[1] | li[2] | li[3]') for ul in doc.xpath('//ul')]

166

answered Nov 11 '22 14:11

Guy Gavriely

This should work .

import re
from BeautifulSoup import BeautifulSoup
html_doc = '<h3>HeaderName1</h3><ul class="prodoplist"><li>Parent</li><li class="lev1">Child1</li><li class="lev1">Child2</li><li class="lev1">Child3</li></ul>  <h3>HeaderName2</h3><ul class="prodoplist"><li>Parent2</li><li class="lev1">Child4</li><li class="lev1">Child5</li><li class="lev1">Child6</li></ul>'
m = re.search(r'<h3>.*?<h3>', html_doc, re.DOTALL)
s = m.start()
e = m.end() - len('<h3>')
target_html = html_doc[s:e]
new_bs = BeautifulSoup(target_html)
ul_eles = new_bs.findAll('ul', attrs={'class' : 'prodoplist'})
for ul_ele in ul_eles:
    li_eles = new_bs.findAll('li', attrs={'class' : 'lev1'})
    for li_ele in li_eles:
        print li_ele.text

answered Nov 11 '22 16:11

Priyank Patel

import requests
from BeautifulSoup import BeautifulSoup

children = []

url = "http://someurl.html"
r = requests.get(url)
bs = BeautifulSoup(r.text)
for uls in bs.findAll('ul', 'prodoplist'):
    lis = uls.findAll('li', 'lev1')
    for li in lis:
        children.append(li.text)

print children

answered Nov 11 '22 14:11

o-90

Related questions
                            
                                How to wrap (monkey patch) @classmethod
                            
                                Remove/Rewrite HTTP header 'Server: TwistedWeb'
                            
                                python, "urlparse.urlparse(url).hostname" return None value
                            
                                pandas dataframe count row values
                            
                                How to catch all exceptions with CherryPy?
                            
                                Serve static files on heroku using AWS S3 for django?
                            
                                How to use PyPy on a Mac?
                            
                                how to redirect the logging output of xmlrpc server to some file
                            
                                Python: Append lambda functions to list [duplicate]
                            
                                Breaking 'pip install' to smaller steps, so I can edit the package before it is installed
                            
                                Split multi-line string with shlex and keep quote characters
                            
                                When does Python evaluate a variable in a function definition
                            
                                Celery Heartbeat Not Working
                            
                                python re invalid group reference \10\2 [duplicate]
                            
                                How can one assert in Django that a model field has already been populated from the DB?
                            
                                Create (nested) List from two Lists in Python
                            
                                Disqus SSO - Not working
                            
                                python split string on whitespace
                            
                                Django Filter Model One-To-Many relation, greatest diff between prices
                            
                                Django class based generic view redirect

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With