Python 如何从 BeautifulSoup 中表的 td 中获取价值？

Question

提问by yak

I have a page with some tables in its source:

我有一个页面，其中包含一些表格：

<table width='100%' cellspacing='0' cellpadding='2' class='an'>
    <tr>
        <td width='35%' align='right'>XXX :</td>
        <td><b>20</b></td>
    </tr>
    <tr><
        td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
</table>

<table width='361' cellspacing='0' cellpadding='2' class='an'>
    <tr>
        <td width='35%' align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XX :</td>
        <td><a href='XXX'><b>XXX</b></a></td>
    </tr>
    <tr>
        <td align='right'>PHONE :</td>
        <td><b>518878943</b></td>
    </tr>
</table>

I would like to get from this page a phone number, from the second table:

我想从这个页面得到一个电话号码，从第二个表：

<td align='right'>PHONE :</td>
<td><b>518878943</b></td>

However, my code:

但是，我的代码：

page_src="""<table width='100%' cellspacing='0' cellpadding='2' class='an'>
    <tr>
        <td width='35%' align='right'>XXX :</td>
        <td><b>20</b></td>
    </tr>
    <tr><
        td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
</table>

<table width='361' cellspacing='0' cellpadding='2' class='an'>
    <tr>
        <td width='35%' align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XXX :</td>
        <td><b>XXX</b></td>
    </tr>
    <tr>
        <td align='right'>XX :</td>
        <td><a href='XXX'><b>XXX</b></a></td>
    </tr>
    <tr>
        <td align='right'>PHONE :</td>
        <td><b>518878943</b></td>
    </tr>
</table>
"""

soup = BeautifulSoup(page_src, 'html.parser')
divs = soup.findAll("table", {"class": "an"})
for div in divs:
    row = ''
    rows = [row in div.findAll('tbody').findAll('tr')]

Gives me such an error message:

给了我这样的错误信息：

Traceback (most recent call last):
  File "test.py", line 198, in <module>
    rows = [row in div.findAll('tbody').findAll('tr')]
AttributeError: 'ResultSet' object has no attribute 'findAll'

How to solve this and get the phone number from the page? Thanks

如何解决这个问题并从页面获取电话号码？谢谢

EDIT:

编辑：

Partly solved. Partly, because I think my solution is ugly, but works. Maybe someone will come up with prettier solution?

部分解决。部分是因为我认为我的解决方案很难看，但有效。也许有人会想出更漂亮的解决方案？

tds = []
soup = BeautifulSoup(page_src, 'html.parser')
divs = soup.findAll("table", {"class": "an"})
for div in divs:
    rows = div.findAll('tr')
    for row in rows :
        tds.append(row.findAll('td'))
phone = str(tds[12][1])
phone = phone.replace("<td><b>", "").replace("</b></td>", "").strip()
print phone

Answer 1

采纳答案by alecxe

Find the tdelement containing PHONE :and then get the following sibling element. One line:

找到td包含的元素PHONE :，然后获取以下同级元素。一条线：

soup.find("td", text="PHONE :").find_next_sibling("td").text

Answer 2

回答by dstudeba

You have a couple of problems with your code.

您的代码有几个问题。

divs = soup.findAll("table", {"class": "an"})  
for div in divs:
    row = ''
    rows = [row in div.findAll('tbody').findAll('tr')]

First problem is there are no tbodytags so div.findAll('tbody')will return nothing.

第一个问题是没有tbody标签，所以div.findAll('tbody')不会返回任何内容。

Second problem is that div.findAll('tbody')would return an array, not a tag, so you can't call findAll('tr')on it.

第二个问题是它div.findAll('tbody')会返回一个数组，而不是一个标签，所以你不能调用findAll('tr')它。

Here is what you want to get all the trtags in the table:

这是您想要获取tr表中所有标签的内容：

divs = soup.findAll("table", {"class": "an"})  
for div in divs:
    row = ''
    rows = div.findAll('tr')

You can then go through all the trtags and call .textto get the text inside the row, and whichever ones have "PHONE" in them are the ones you want.

然后，您可以浏览所有tr标签并调用.text以获取行内的文本，其中包含“PHONE”的就是您想要的。

soup = BeautifulSoup(page_src, 'html.parser')
divs = soup.findAll("table", {"class": "an"})
for div in divs:
    row = ''
    rows = div.findAll('tr')
    for row in rows:
        if(row.text.find("PHONE") > -1):
            print(row.text)

generates:

产生：

PHONE :
518878943

Python 如何从 BeautifulSoup 中表的 td 中获取价值？

提问by yak

采纳答案by alecxe

回答by dstudeba

相关推荐

最近更新

标签

Python 如何从 BeautifulSoup 中表的 td 中获取价值？

提问by yak

采纳答案by alecxe

回答by dstudeba

相关推荐

Python 在 Windows 中 Kivy 到 Apk

Python 在 Amazon Linux 中升级 pip

我可以使用 prepend 元素而不是 append 来扩展 Python 中的列表吗？

Python 101：无法打开文件：没有那个文件或目录

相关推荐

最近更新

标签