JSOUP:如果节点值包含类似 <[email protected],则无法解析 html 字符串以记录>

JSOUP Unable to parse html string to document if a node value contains like <[email protected]>

提问人:Shaan 提问时间:9/23/2021 更新时间:9/23/2021 访问量:151

问:

尝试通过 JSoup 将 HTML 字符串转换为文档,并因无效的 XML 字符而失败。

当用户从 Outlook 复制电子邮件地址时,可能会发生此错误。

看起来,如果文本前面有特殊字符,JSoup 可能会失败 >. 例如,<test@>,<test!>。

<html>
<table>
<tr>
   <td>
        <[email protected]>
   </td>
 </tr>
</table>
</html>

有什么想法,可以使它起作用吗?

Java jsoup html 解析

评论

0赞 pleft 9/23/2021
您可以使用自定义来允许此类条目吗?jsoupwhitelist
0赞 Shaan 9/23/2021
实际上我试过了,它剥离了<>之间的值
0赞 pleft 9/23/2021
你能分享你的代码吗?你试过了什么?
0赞 Jonathan Hedley 9/23/2021
我的建议是使用正则表达式预处理内容,该正则表达式会找到这些包装的电子邮件地址并转义它们(或执行任何您想要的事情)。jsoup 是一个 HTML 解析器,它...不是。
0赞 Shaan 9/24/2021
看起来这是唯一的选择。需要对 HTML ASCII 字符进行转义并重新处理它们。

答: 暂无答案