如何解析 SEC 10K 文档中的 HTML 表格数据并以文本格式编写?

How can I parse HTML tabular data from an SEC 10K document and write it in a text format?

提问人:Cappucher 提问时间:5/21/2023 更新时间:5/21/2023 访问量:45

问:

我正在尝试创建一个程序来分析 SEC 10K 报告并将它们放入可读的文本文件中。到目前为止,我已经成功地从他们的 API (sec-api) 获取了 HTML 并在本地下载了它(如果有更好的方法来获取文档,请告诉我)。

问题是 HTML,尤其是表格数据,格式化为难以阅读的格式:

<tr>
                <td colspan="3" style="padding:2px 1pt;text-align:center;vertical-align:bottom"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">Period</span>
                </td>
                <td colspan="3" style="padding:0 1pt"></td>
                <td colspan="3" style="padding:2px 1pt;text-align:left;vertical-align:bottom">
                    <div style="text-align:center"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">Total
                            Number of Class C Shares Purchased </span></div>
                    <div style="text-align:center"><span style="color:#000000;font-family:'Arial',sans-serif;font-size:8pt;font-weight:700;line-height:100%">(in
                            thousands)</span><span style="color:#000000;font-family:'Arial',sans-serif;font-size:5.2pt;font-weight:700;line-height:100%;position:relative;top:-2.8pt;vertical-align:baseline">(1)</span>
                    </div>
                </td>
            </tr>
<tr>
                <td colspan="3" style="background-color:#cceeff;padding:2px 1pt;text-align:left;vertical-align:bottom">
                    <span style="color:#000000;font-family:'Arial',sans-serif;font-size:10pt;font-weight:400;line-height:100%">October
                        1 - 31</span></td>
                <td colspan="3" style="background-color:#cceeff;padding:0 1pt"></td>
                <td colspan="2" style="background-color:#cceeff;border-top:1pt solid #000;padding:2px 0 2px 1pt;text-align:right;vertical-align:bottom">
                    <span style="color:#000000;font-family:'Arial',sans-serif;font-size:10pt;font-weight:400;line-height:100%">8,585&nbsp;</span>
                </td>
                         </tr>

最好是,我希望它采用如下所示的格式:

10 月 1 日至 31 日期间购买的 C 类股票数量(单位:千股):8,585

我正在使用打字稿,所以最好我希望解决方案利用它。

我已经尝试使用多个不同的 API,但我尝试解析它们有点不成功。SEC 提供的几乎所有 API 在解析 HTML 或根据 CIK 编号检索数据方面都无济于事。

打字稿 HTML 解析 财务 SEC

评论


答: 暂无答案