为什么在反向句子请求中检索的 <span 属性(文本)是 python?

Why is the <span attribute(text), retrieved in reverse sentences requests, python?

提问人:mhj.DA 提问时间:8/30/2023 更新时间:8/30/2023 访问量:29

问:

我正在尝试从 span 元素中获取 text 属性,每个元素都包含一个段落, 检索到的段落在句子方面是相反的,

一个span元素的例子:(有5个span元素,我加入了它们的文本)

<span lang="AR-SA" style="font-size:14.0pt;font-family:&quot;Simplified Arabic&quot;; mso-ascii-font-family:&quot;Times New Roman&quot;;mso-fareast-font-family:&quot;Times New Roman&quot;; mso-hansi-font-family:&quot;Times New Roman&quot;">حظيت حكومة السيد عبد الكريم الكباريتي التي تم تشكيلها في 4 شباط (فبراير) 1996 باهتمام أردني وإقليمي لم تحظَ به حكومة أردنية أخرى منذ سنوات طويلة، مما يعكس حجم التحديات التي تواجهها هذه الحكومة سواء على المستوى الداخلي أو الإقليمي.<o:p></o:p></span>

从 CSV 文件中查看的输出结果:[' حظيت حكومة السيد عبد الكريم الكباريتي\r\nالتي تم تشكيلها في 4 شباط (فبراير) 1996 باهتمام أردني وإقليمي لم تحظَ به حكومة\r\nأردنية أخرى منذ سنوات طويلة، مما يعكس حجم التحديات التي تواجهها هذه الحكومة\r\nسواء على المستوى الداخلي أو الإقليمي.']

我的代码:它为多个 span 元素提供了一个循环

    soup = BeautifulSoup(response.content,'html.parser', from_encoding='utf-8')
    abstract_el = soup.find('div', id='BodyContentPlaceHolder_divText')
    spans =abstract_el.find_all('span')
    subs=''
    for sub in spans:
        subs+= ' '+sub.text
    ar_abstract.append(subs)

预期结果:حظيت حكومة السيد عبد الكريم الكباريتيالتي تم تشكيلها في 4 شباط (فبراير) 1996 باهتمام أردني وإقليمي لم تحظَ به حكومة أردنية أخرى منذ سنوات طويلة، مما يعكس حجم التحديات التي تواجهها هذه الحكومة سواء على المستوى الداخلي أو الإقليمي.

逻辑书写的连续行( 需要阿拉伯语阅读才能理解错误句子的问题

python html utf-8 请求 阿拉伯语

评论

0赞 tacoshy 8/30/2023
dir="rtl"
0赞 Andj 8/31/2023
标记可能存在问题。但在调查之前,您显示的结果是什么?jupyter 笔记本?在终端?其他?
0赞 mhj.DA 9/1/2023
@Andj 我正在保存到 csv 并从 vs code 和 excel 打开文件
0赞 Andj 9/1/2023
@mhj.DA 我怀疑你有多个问题,第一个是你正在废弃的 HTML,我怀疑你的管道中各个点都有其他区域。如果我查看您的预期结果,并获取预期结果的来源,复制内部 html 并将其粘贴到 RTL 环境中,第一个单词是“حظيت”,最后一个单词是“الإقليمي”这符合您的期望吗?但是,如果看不到源头,并且很难确定发生了什么,将样本粘贴到堆栈溢流中会使水变得浑浊。

答: 暂无答案