提问人:Cappucher 提问时间:5/21/2023 更新时间:5/21/2023 访问量:45
如何解析 SEC 10K 文档中的 HTML 表格数据并以文本格式编写?
How can I parse HTML tabular data from an SEC 10K document and write it in a text format?
问:
我正在尝试创建一个程序来分析 SEC 10K 报告并将它们放入可读的文本文件中。到目前为止,我已经成功地从他们的 API (sec-api) 获取了 HTML 并在本地下载了它(如果有更好的方法来获取文档,请告诉我)。
问题是 HTML,尤其是表格数据,格式化为难以阅读的格式:
<tr>
<td colspan="3" style="padding:2px 1pt;text-align:center;vertical-align:bottom"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">Period</span>
</td>
<td colspan="3" style="padding:0 1pt"></td>
<td colspan="3" style="padding:2px 1pt;text-align:left;vertical-align:bottom">
<div style="text-align:center"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">Total
Number of Class C Shares Purchased </span></div>
<div style="text-align:center"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">(in
thousands)</span><span style="color:#000000;font-family:'Arial',sans-serif;font-size:5.2pt;font-weight:700;line-height:100%;position:relative;top:-2.8pt;vertical-align:baseline">(1)</span>
</div>
</td>
</tr>
<tr>
<td colspan="3" style="background-color:#cceeff;padding:2px 1pt;text-align:left;vertical-align:bottom">
<span style="color:#000000;font-family:'Arial',sans-serif;font-size:10pt;font-weight:400;line-height:100%">October
1 - 31</span></td>
<td colspan="3" style="background-color:#cceeff;padding:0 1pt"></td>
<td colspan="2" style="background-color:#cceeff;border-top:1pt solid #000;padding:2px 0 2px 1pt;text-align:right;vertical-align:bottom">
<span style="color:#000000;font-family:'Arial',sans-serif;font-size:10pt;font-weight:400;line-height:100%">8,585 </span>
</td>
</tr>
最好是,我希望它采用如下所示的格式:
10 月 1 日至 31 日期间购买的 C 类股票数量(单位:千股):8,585
我正在使用打字稿,所以最好我希望解决方案利用它。
我已经尝试使用多个不同的 API,但我尝试解析它们有点不成功。SEC 提供的几乎所有 API 在解析 HTML 或根据 CIK 编号检索数据方面都无济于事。
答: 暂无答案
评论