问：

背景

在 XHTML 文档中将直引号转换为卷曲的引号和撇号。给定一个带有直引号（和）的文档，将执行一些预处理以将直引号转换为其卷曲的语义等价物（、、、和）。通常，卷曲字符用于结束单引号（）和撇号（），但这会失去语义意义，我想通过使用实体来保留语义---以便后续转换为 TeX（例如，）。因此："'“”‘’'’’'\quote{outer \quote{we’re inside quotes} outer}

Markdown -> XHTML (straight) -> XHTML (curled) -> TeX

该代码使用 Java 的内置文档对象模型（DOM）类。

问题

调用 setTextContent 方法将对任何 & 符号进行双重编码，结果为：Node

&amp;ldquo;I reckon, I&amp;apos;m &amp;apos;bout dat.&amp;rdquo;
&amp;ldquo;Elizabeth Davenport;&amp;rdquo; she said &amp;lsquo;Elizabeth&amp;rsquo; to be dignified, &amp;ldquo;and really my father owns the place.&amp;rdquo;

而不是：

&ldquo;I reckon, I&apos;m &apos;bout dat.&rdquo;
&ldquo;Elizabeth Davenport;&rdquo; she said &lsquo;Elizabeth&rsquo; to be dignified, &ldquo;and really my father owns the place.&rdquo;

通过设置处理指令来禁用和启用似乎不起作用。

法典

下面是树的代码：walk

  public static void walk(
    final Document document, final String xpath,
    final Consumer<Node> consumer ) {
    assert document != null;
    assert consumer != null;

    try {
      final var expr = lookupXPathExpression( xpath );
      final var nodes = (NodeList) expr.evaluate( document, NODESET );

      if( nodes != null ) {
        for( int i = 0, len = nodes.getLength(); i < len; i++ ) {
          consumer.accept( nodes.item( i ) );
        }
      }
    } catch( final Exception ex ) {
      clue( ex );
    }
  }

下面是将引号替换为卷曲等价物的代码：

walk(
  xhtml,
  "//*[normalize-space( text() ) != '']",
  node -> node.setTextContent( sConverter.apply( node.getTextContent() ) )
);

和卷曲引号在哪里。xhtmlDocumentsConverter

问题

您将如何指示 DOM 在不重新编码 & 符号的情况下接受和朋友？'

使用 Node 的 setTextContent 方法防止对 & 符号进行重新编码

Prevent re-encoding ampersands using Node's setTextContent method

背景

问题

法典

问题

相关

评论

评论

评论

使用 Node 的 setTextContent 方法防止对 &amp; 符号进行重新编码

Prevent re-encoding ampersands using Node's setTextContent method

背景

问题

法典

问题

相关

评论

评论

评论

使用 Node 的 setTextContent 方法防止对 & 符号进行重新编码