仅从 SEC 10-k 文件(HTML 文件)中提取可见文本

Extracting only visible text from SEC 10-k filings (HTML-files)

提问人:YPG 提问时间:11/4/2022 最后编辑:YPG 更新时间:11/4/2022 访问量:224

问:

我已经使用该软件包从 SEC 的 EDGAR 系统下载了 10-k 文件。对于每个申请,基础 html 代码都存储在单独的文本文件中。现在,我只想从 html 代码中提取原始 html 文件的读者可见的文本。这意味着我需要删除所有表格、图形、xbrl 和 zip 文档等。edgar

要下载文件:

# packages
require(edgar)

# SEC company identifiers (3 companies in this case)
ciK_codes = c(0000099780,0000010456, 0000099780)

# timespan (10 reports per company)
years = c(2011:2020)

# getFilings
getFilings(cik.no = cik_codes, form.type = "10-K", 
                  filing.year = years, 
                  downl.permit = "y", 
                  useragent = "Name Surname E-Mail")

到目前为止,我尝试执行以下操作:

# packages
require(XML)
require(readr)

# read filing
filing = readr::read_file(path)

# parsing document
doc = XML::htmlParse(filing, asText = TRUE, useInternalNodes = TRUE, addFinalizer = FALSE)

# keeping only text outside of html tags
f.text = XML::xpathSApply(doc, "//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)][not(ancestor::form)]",
                           XML::xmlValue)

这已经很好用了,但不幸的是,输出仍然包含表格、xbrl 文档等。

r html 解析

评论


答: 暂无答案