提问人:Fascors 提问时间:8/2/2023 更新时间:8/2/2023 访问量:16
如何正确格式化来自网站的 jsonp 文件以提取格式良好的文本?(使用 Python)
How to correctly format a jsonp file coming from a website to extract a well formatted text? (with python)
问:
我正在尝试从此链接中提取正确且格式良好的文本:
https://html.scribdassets.com/5lamlvj3nkau3ato/pages/100-ca9665a40f.jsonp
摘自本网站:
https://www.scribd.com/document/628782766/La-machoire-de-Cain
我尝试使用beautifulsoup,但是输出是错误的,它给出了这样的结果: 'peut-être moins tendre et plussincère.Mon cœur se' 你可以看到 'plussincère' 这个词是连接起来的。 (在 JSONP 中,文本和标记之间没有空格)。 然后我试图在和文本之间添加一个空格,但它给出了一些奇怪的东西(在这个文件或另一个文件上,它返回了这样的单词:“B o n jou r”,因为有些单词被拆分为不同的跨度。
然后,我尝试将viterbi算法用于大型数据集(300k),但没有奏效。
如果需要,这里是其他页面的链接。
{'pageNum': 43, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/43-f3a7f37540.jsonp'}
{'pageNum': 44, 'contentUrl': 'https://html.scribdassets.com/5lamlvj3nkau3ato/pages/44-a06fccf8e0.jsonp'}
先谢谢你。
答: 暂无答案
评论
window.page100_callback(
);
json.loads()