从 Chrome 的阅读器模式复制文本?

Copy text from Chrome’s Reader mode?

提问人:stalostan 提问时间:11/8/2023 更新时间:11/8/2023 访问量:33

问:

谷歌浏览器的阅读模式侧面板相当不错。它似乎(对我来说)在谷歌搜索ACS 上的可读性 .js、dom-distillertrafilatura 上表现优于可读性。所以我想将其输出提供给 GPT-4,但目前似乎无法从面板复制 HTML。我正在寻找解决方案。

我试过什么

流行的替代 Chrome 阅读器扩展程序、浏览器内置阅读器和开源解决方案。似乎没有一个能像他们那样有能力,或者可以解析谷歌搜索结果。

旧 Chrome 的可复制读取模式(基于 dom-distiller 而不是 read-anything)仍然可以在 Chrome 版本 104 上重现,但似乎不太令人满意和稳定。chrome-distiller://<UUID>_<HASH>/?url=<URL>

我考虑过的解决方案

阅读模式侧面板有一个辅助功能树(例如,通过 macOS 上的辅助功能检查器)。从理论上讲,可以通过编程方式获取和解析它,尽管我没有 UI 自动化方面的经验。

在 Chromium 的源代码中,函数 (src) 似乎调用了 主 HTML 而不是蒸馏后的 HTML (?)。也许源代码可以修改和构建,尽管我在C++和大型软件工程方面几乎没有经验。ReadAnythingUntrustedPageHandler::OnCopymain_observer_->web_contents()->Copy()web_ui_->GetWebContents()

chrome-untrusted://read-anything-side-panel.top-chrome并且似乎涉及元素。也许有一个黑客可以访问其中任何一个?<read-anything-app />

总结

从理论上讲,复制蒸馏的 HTML 应该没有固有的困难,尤其是在其源代码已知的情况下。作为(似乎)最好的文本提取解决方案之一,有充分的理由尝试在研究/生产中使用它。

那么,能够从 Chrome 的阅读模式侧面板复制 HTML 有多难,我该如何实现这一目标?

谷歌浏览器 Chromium

评论


答: 暂无答案