提问人:YPG 提问时间:11/4/2022 最后编辑:YPG 更新时间:11/4/2022 访问量:224
仅从 SEC 10-k 文件(HTML 文件)中提取可见文本
Extracting only visible text from SEC 10-k filings (HTML-files)
问:
我已经使用该软件包从 SEC 的 EDGAR 系统下载了 10-k 文件。对于每个申请,基础 html 代码都存储在单独的文本文件中。现在,我只想从 html 代码中提取原始 html 文件的读者可见的文本。这意味着我需要删除所有表格、图形、xbrl 和 zip 文档等。edgar
要下载文件:
# packages
require(edgar)
# SEC company identifiers (3 companies in this case)
ciK_codes = c(0000099780,0000010456, 0000099780)
# timespan (10 reports per company)
years = c(2011:2020)
# getFilings
getFilings(cik.no = cik_codes, form.type = "10-K",
filing.year = years,
downl.permit = "y",
useragent = "Name Surname E-Mail")
到目前为止,我尝试执行以下操作:
# packages
require(XML)
require(readr)
# read filing
filing = readr::read_file(path)
# parsing document
doc = XML::htmlParse(filing, asText = TRUE, useInternalNodes = TRUE, addFinalizer = FALSE)
# keeping only text outside of html tags
f.text = XML::xpathSApply(doc, "//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)][not(ancestor::form)]",
XML::xmlValue)
这已经很好用了,但不幸的是,输出仍然包含表格、xbrl 文档等。
答: 暂无答案
评论