仅从 SEC 10-k 文件（HTML 文件）中提取可见文本-解网

问：

我已经使用该软件包从 SEC 的 EDGAR 系统下载了 10-k 文件。对于每个申请，基础 html 代码都存储在单独的文本文件中。现在，我只想从 html 代码中提取原始 html 文件的读者可见的文本。这意味着我需要删除所有表格、图形、xbrl 和 zip 文档等。edgar

要下载文件：

# packages
require(edgar)

# SEC company identifiers (3 companies in this case)
ciK_codes = c(0000099780,0000010456, 0000099780)

# timespan (10 reports per company)
years = c(2011:2020)

# getFilings
getFilings(cik.no = cik_codes, form.type = "10-K", 
                  filing.year = years, 
                  downl.permit = "y", 
                  useragent = "Name Surname E-Mail")

到目前为止，我尝试执行以下操作：

# packages
require(XML)
require(readr)

# read filing
filing = readr::read_file(path)

# parsing document
doc = XML::htmlParse(filing, asText = TRUE, useInternalNodes = TRUE, addFinalizer = FALSE)

# keeping only text outside of html tags
f.text = XML::xpathSApply(doc, "//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)][not(ancestor::form)]",
                           XML::xmlValue)

这已经很好用了，但不幸的是，输出仍然包含表格、xbrl 文档等。

r html 解析

仅从 SEC 10-k 文件（HTML 文件）中提取可见文本

Extracting only visible text from SEC 10-k filings (HTML-files)

评论