java 如何使用jsoup从此html标签中获取文本？

Question

提问by user2269351

I meet a position when i using jsoup to extracting data. The data like this:

当我使用 jsoup 提取数据时，我遇到了一个职位。数据是这样的：

This is a <strong>strong</strong> number <date>2013</date>

I want to get data like this: This is a number

我想得到这样的数据： This is a number

How can I do that? Can anyone help me?

我怎样才能做到这一点？谁能帮我？

Answer 1

回答by ollo

You can parse the html into a Document, select the body-Element and get its text.

您可以将 html 解析为Document，选择body-Element 并获取其文本。

Example:

例子：

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>");

String ownText = doc.body().ownText();
String text = doc.body().text();

System.out.println(ownText);
System.out.println(text);

Output:

输出：

This is a number  
This is a strong number 2013

Answer 2

回答by Mehdi Karamosly

This should answer your question :

这应该回答你的问题：

public String escapeHtml(String source) {
    Document doc = Jsoup.parseBodyFragment(source);
    Elements elements = doc.select("b");
    for (Element element : elements) {
        element.replaceWith(new TextNode(element.toString(),""));
    }
    return Jsoup.clean(doc.body().toString(), new Whitelist().addTags("a").addAttributes("a", "href", "name", "rel", "target"));
}

Jsoup - Howto clean html by escaping not deleting the unwanted html?

Jsoup - 如何通过转义而不删除不需要的 html 来清理 html？

Answer 3

回答by Mehdi Karamosly

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>");

Spanned HtmlDoc = Html.fromHtml(doc.toString());
String fromHTML = HtmlDoc.toString();

System.out.println(fromHTML);

java 如何使用jsoup从此html标签中获取文本？

提问by user2269351

回答by ollo

回答by Mehdi Karamosly

回答by Mehdi Karamosly

相关推荐

最近更新

标签

java 如何使用jsoup从此html标签中获取文本？

提问by user2269351

回答by ollo

回答by Mehdi Karamosly

回答by Mehdi Karamosly

相关推荐

java TestNG 组：我们可以包含两个组名并创建一个组来运行测试吗？

java Wicket 更改标签/文本字段值

在 Java 中检查字符串是否为 ISO 语言的 ISO 国家的更简洁方法

java 如何让下一个按钮进入下一帧？图形用户界面

相关推荐

最近更新

标签