如何根据 XSD 文件验证 XML 文件?

How to validate an XML file against an XSD file?

提问人:Jeff 提问时间:8/19/2008 最后编辑:Eric AyaJeff 更新时间:2/9/2022 访问量:341368

问:

我正在生成一些 xml 文件,这些文件需要符合提供给我的 xsd 文件。我应该如何验证它们是否符合要求?

Java XML 验证 XSD

评论


答:

25赞 SCdF 8/19/2008 #1

以下是使用 Xerces2 执行此操作的方法。这方面的教程,在这里(需要注册)。

原文署名:公然抄袭自这里

import org.apache.xerces.parsers.DOMParser;
import java.io.File;
import org.w3c.dom.Document;

public class SchemaTest {
  public static void main (String args[]) {
      File docFile = new File("memory.xml");
      try {
        DOMParser parser = new DOMParser();
        parser.setFeature("http://xml.org/sax/features/validation", true);
        parser.setProperty(
             "http://apache.org/xml/properties/schema/external-noNamespaceSchemaLocation", 
             "memory.xsd");
        ErrorChecker errors = new ErrorChecker();
        parser.setErrorHandler(errors);
        parser.parse("memory.xml");
     } catch (Exception e) {
        System.out.print("Problem parsing the file.");
     }
  }
}

评论

10赞 McDowell 9/18/2008
SAX 解析器会更有效 - DOM 解析器创建 DOM 对象;在这种情况下浪费操作。
0赞 Weslor 10/29/2015
问题是针对 XSD 验证 XML。在这个答案中,你更进一步,得到一个不需要的 Parser 对象,对吧?
0赞 Alex 3/11/2016
“ErrorChecker 不能解析为类型”..缺少导入?
0赞 Adam 8/19/2008 #2

您在寻找工具或库吗?

就库而言,几乎事实上的标准是 Xerces2,它同时具有 C++Java 版本。

但要预先警告,这是一个重量级的解决方案。但话又说回来,根据 XSD 文件验证 XML 是一个相当沉重的问题。

至于为您执行此操作的工具,XMLFox 似乎是一个不错的免费软件解决方案,但我不能肯定地说没有亲自使用过它。

355赞 McDowell 8/19/2008 #3

Java 运行时库支持验证。上次我检查的是 Apache Xerces 解析器。您可能应该使用 javax.xml.validation.Validator

import javax.xml.XMLConstants;
import javax.xml.transform.Source;
import javax.xml.transform.stream.StreamSource;
import javax.xml.validation.*;
import java.net.URL;
import org.xml.sax.SAXException;
//import java.io.File; // if you use File
import java.io.IOException;
...
URL schemaFile = new URL("http://host:port/filename.xsd");
// webapp example xsd: 
// URL schemaFile = new URL("http://java.sun.com/xml/ns/j2ee/web-app_2_4.xsd");
// local file example:
// File schemaFile = new File("/location/to/localfile.xsd"); // etc.
Source xmlFile = new StreamSource(new File("web.xml"));
SchemaFactory schemaFactory = SchemaFactory
    .newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
try {
  Schema schema = schemaFactory.newSchema(schemaFile);
  Validator validator = schema.newValidator();
  validator.validate(xmlFile);
  System.out.println(xmlFile.getSystemId() + " is valid");
} catch (SAXException e) {
  System.out.println(xmlFile.getSystemId() + " is NOT valid reason:" + e);
} catch (IOException e) {}

架构工厂常量是定义 XSD 的字符串。上面的代码根据 URL 验证 WAR 部署描述符,但您也可以轻松地针对本地文件进行验证。http://www.w3.org/2001/XMLSchemahttp://java.sun.com/xml/ns/j2ee/web-app_2_4.xsd

不应使用 DOMParser 来验证文档(除非您的目标是创建文档对象模型)。这将在解析文档时开始创建 DOM 对象 - 如果您不打算使用它们,那就太浪费了。

评论

0赞 ziggy 7/21/2012
在此示例中,您使用的是 DOM 还是 SAX 解析器?我如何判断您正在使用哪个解析器,因为我看不到对两者的引用。
1赞 McDowell 7/21/2012
@ziggy - 这是 JAXP 实现的实现细节。Sun 的 JDK 6 使用带有 StreamSource 的 SAX 解析器。在这种情况下,JAXP 实现可以合法地使用 DOM 解析器,但没有理由这样做。如果你显式地使用 DOM 解析器进行验证,你肯定会实例化一个 DOM 树。
0赞 ziggy 7/23/2012
如何将 ErrorHandler 与上述功能一起使用?是否只是创建 ErrorHandler 并将其与验证器关联?即验证者。SetErrorHandler() 如此 SO 问题中的示例所示 stackoverflow.com/questions/4864681/...
0赞 mike 7/19/2013
执行不应该用于执行情况,而不是用于控制流吗?
0赞 matt forsythe 5/31/2014
这段代码不会只捕获致命错误吗?如果您希望能够捕获非致命性(例如非结构性),我认为您需要使用 ErrorHandler。
-3赞 KnomDeGuerre 10/2/2008 #4

我只需要针对 XSD 验证一次 XML,所以我尝试了 XMLFox。我发现它非常令人困惑和奇怪。帮助说明似乎与界面不匹配。

我最终使用了 LiquidXML Studio 2008 (v6),它更易于使用,也更熟悉(UI 与我经常使用的 Visual Basic 2008 Express 非常相似)。缺点:免费版本没有验证功能,所以我不得不使用 30 天试用期。

评论

1赞 james.garriss 10/8/2015
问题是 Java,但这个答案不是。
0赞 Mark Storer 12/8/2018
公平地说,“java”这个词从未出现在问题中,只是标签。我会为此提出问题,而不是回答。
0赞 Knom 12/10/2018
谢谢詹姆斯和马克,帮我磨砺!
2赞 Todd 1/29/2009 #5

如果要以编程方式生成 XML 文件,则可能需要查看 XMLBeans 库。使用命令行工具,XMLBean 将自动生成并打包一组基于 XSD 的 Java 对象。然后,可以使用这些对象基于此架构生成 XML 文档。

它内置了对模式验证的支持,并且可以将 Java 对象转换为 XML 文档,反之亦然。

CastorJAXB 是其他 Java 库,其用途与 XMLBean 类似。

3赞 StaxMan 3/28/2009 #6

还有一个答案:既然你说你需要验证你正在生成(写入)的文件,你可能希望在你写作时验证内容,而不是先写,然后读回去进行验证。如果您使用基于 SAX 的编写器,则可以使用用于 Xml 验证的 JDK API 来执行此操作:如果是这样,只需通过调用“Validator.validate(source, result)”来链接验证器,其中源来自您的编写器,结果是输出需要去的地方。

或者,如果使用 Stax 编写内容(或使用 stax 或可以使用 stax 的库),则在使用 XMLStreamWriter 时,Woodstox 也可以直接支持验证。下面是一个博客文章,展示了如何做到这一点:

评论

0赞 13ren 3/28/2009
嘿 StaxMan,有没有 XMLStreamWriters 可以进行漂亮的打印缩进?令我惊讶的是,它不在标准实现中。另外,它有多大用处吗?我认为这是正确的方法,但似乎对此兴趣不大。
0赞 13ren 3/28/2009
刚刚在这里找到了您关于 StaxMate 的帖子(但它不是 XMLStreamWriter):stackoverflow.com/questions/290326/stax-xml-formatting-in-java/......
0赞 StaxMan 4/1/2010
是的,StaxMate 可以做到这一点。它在内部使用 XMLStreamWriter 来编写内容,因此您也可以以这种方式连接验证器。
20赞 chickeninabiscuit 7/14/2011 #7

我们使用 ant 构建项目,因此我们可以使用 schemavalidate 任务来检查我们的配置文件:

<schemavalidate> 
    <fileset dir="${configdir}" includes="**/*.xml" />
</schemavalidate>

现在顽皮的配置文件将使我们的构建失败!

http://ant.apache.org/manual/Tasks/schemavalidate.html

3赞 juwens 3/23/2012 #8

如果你有一台 Linux-Machine,你可以使用免费的命令行工具 SAXCount。我发现这非常有用。

SAXCount -f -s -n my.xml

它针对 dtd 和 xsd 进行验证。 50MB 文件为 5 秒。

在 debian squeeze 中,它位于软件包 “libxerces-c-samples” 中。

dtd 和 xsd 的定义必须在 xml 中!您无法单独配置它们。

评论

2赞 Shane 7/18/2012
这允许从 vim (:!SAXCount -f -n -s %)
4赞 rogerdpack 12/19/2016
或使用古老的 xmllint(来自 13ren 的回答)xmllint --schema phone.xsd phone.xml
0赞 ceving 8/17/2020
很好的答案 superuser.com
6赞 Paulo Fidalgo 5/13/2013 #9

使用 Java 7,您可以按照包描述中提供的文档进行操作。

// create a SchemaFactory capable of understanding WXS schemas
SchemaFactory factory = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);

// load a WXS schema, represented by a Schema instance
Source schemaFile = new StreamSource(new File("mySchema.xsd"));
Schema schema = factory.newSchema(schemaFile);

// create a Validator instance, which can be used to validate an instance document
Validator validator = schema.newValidator();

// validate the DOM tree
try {
    validator.validate(new StreamSource(new File("instance.xml"));
} catch (SAXException e) {
    // instance document is invalid!
}

评论

2赞 Andrew Thompson 8/21/2013
“使用 Java 7..”这实际上包含在 Java 5 中。
4赞 Alberto 7/17/2014
这与公认的答案基本相同。不过,在我看来,这个解决方案似乎有点低效,因为它不必要地构建了 DOM 供 xml 解析:.接受 ,因此您可以: 。parser.parse(new File("instance.xml"))validatorSourcevalidator.validate(new StreamSource(new File("instance.xml")))
0赞 mrbela 1/13/2015
以这种方式工作,SAXException 将在 xml 文件中的第一个错误时抛出,然后停止验证。但我想知道所有(!)错误。如果我改用 ErrorHandler(实现 ErrorHandler 的自己的类),它会识别所有错误,但 validator.validate 的 try-catch-block 不会抛出任何异常。如何识别调用验证程序的 validate-method 的类中的错误?感谢您的帮助!
1赞 Clockwork 1/18/2019
必须承认,代码看起来比公认的答案更干净、更易于阅读。
2赞 ceving 8/17/2020
validate 行缺少右括号。
18赞 rogerdpack 12/19/2016 #10

由于这是一个流行的问题,我将指出 java 也可以针对“引用”xsd 进行验证,例如,如果 .xml 文件本身在标头中指定了 XSD,则使用 or(或 xsi 表示特定命名空间)exxsi:schemaLocationxsi:noNamespaceSchemaLocation

<document xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:noNamespaceSchemaLocation="http://www.example.com/document.xsd">
  ...

或 schemaLocation(始终是命名空间到 xsd 映射的列表)

<document xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://www.example.com/my_namespace http://www.example.com/document.xsd">
  ...

其他答案在这里也有效,因为 .xsd 文件“映射”到 .xml 文件中声明的命名空间,因为它们声明了一个命名空间,如果与 .xml 文件中的命名空间匹配,则很好。但有时能够拥有自定义解析器很方便......

来自 javadocs:“如果您在没有指定 URL、文件或源的情况下创建架构,那么 Java 语言会创建一个在正在验证的文档中查找它应该使用的架构的架构。例如:”

SchemaFactory factory = SchemaFactory.newInstance("http://www.w3.org/2001/XMLSchema");
Schema schema = factory.newSchema();

这适用于多个命名空间等。 这种方法的问题在于,它可能是一个网络位置,因此默认情况下,它会在每次验证时发出并访问网络,并不总是最佳的。xmlsns:xsi

下面是一个示例,它根据它引用的任何 XSD 验证 XML 文件(即使它必须从网络中提取它们):

  public static void verifyValidatesInternalXsd(String filename) throws Exception {
    InputStream xmlStream = new new FileInputStream(filename);
    DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
    factory.setValidating(true);
    factory.setNamespaceAware(true);
    factory.setAttribute("http://java.sun.com/xml/jaxp/properties/schemaLanguage",
                 "http://www.w3.org/2001/XMLSchema");
    DocumentBuilder builder = factory.newDocumentBuilder();
    builder.setErrorHandler(new RaiseOnErrorHandler());
    builder.parse(new InputSource(xmlStream));
    xmlStream.close();
  }

  public static class RaiseOnErrorHandler implements ErrorHandler {
    public void warning(SAXParseException e) throws SAXException {
      throw new RuntimeException(e);
    }
    public void error(SAXParseException e) throws SAXException {
      throw new RuntimeException(e);
    }
    public void fatalError(SAXParseException e) throws SAXException {
      throw new RuntimeException(e);
    }
  }

您可以通过手动指定 xsd(请参阅此处的其他一些答案)或使用“XML 目录”样式解析器来避免从网络中拉取引用的 XSD,即使 xml 文件引用了 url。Spring 显然还可以拦截 URL 请求以提供本地文件进行验证。或者您可以通过 setResourceResolver 设置自己的,例如:

Source xmlFile = new StreamSource(xmlFileLocation);
SchemaFactory schemaFactory = SchemaFactory
                                .newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
Schema schema = schemaFactory.newSchema();
Validator validator = schema.newValidator();
validator.setResourceResolver(new LSResourceResolver() {
  @Override
  public LSInput resolveResource(String type, String namespaceURI,
                                 String publicId, String systemId, String baseURI) {
    InputSource is = new InputSource(
                           getClass().getResourceAsStream(
                          "some_local_file_in_the_jar.xsd"));
                          // or lookup by URI, etc...
    return new Input(is); // for class Input see 
                          // https://stackoverflow.com/a/2342859/32453
  }
});
validator.validate(xmlFile);

另请参阅此处获取其他教程。

我相信默认设置是使用 DOM 解析,您也可以使用正在验证的 SAX 解析器执行类似操作 saxReader.setEntityResolver(your_resolver_here);

评论

0赞 tomasb 7/25/2018
对我不起作用,除非在schemaFactory上设置,否则不会调用resolveResource()方法,有什么想法吗?
0赞 rogerdpack 7/25/2018
不知道,对我有用。确保你正在设置它,但除此之外,也许可以打开新问题......setResourceResolver
1赞 Christian Schlichtherle 9/10/2020
复活一个旧帖子,我认为它应该阅读而不是 - 案件很重要。查看 w3.org/TR/xmlschema-1/#d0e3067xsi:schemaLocationxsi:SchemaLocation
3赞 razvanone 11/27/2017 #11

使用 JAXB,您可以使用以下代码:

    @Test
public void testCheckXmlIsValidAgainstSchema() {
    logger.info("Validating an XML file against the latest schema...");

    MyValidationEventCollector vec = new MyValidationEventCollector();

    validateXmlAgainstSchema(vec, inputXmlFileName, inputXmlSchemaName, inputXmlRootClass);

    assertThat(vec.getValidationErrors().isEmpty(), is(expectedValidationResult));
}

private void validateXmlAgainstSchema(final MyValidationEventCollector vec, final String xmlFileName, final String xsdSchemaName, final Class<?> rootClass) {
    try (InputStream xmlFileIs = Thread.currentThread().getContextClassLoader().getResourceAsStream(xmlFileName);) {
        final JAXBContext jContext = JAXBContext.newInstance(rootClass);
        // Unmarshal the data from InputStream
        final Unmarshaller unmarshaller = jContext.createUnmarshaller();

        final SchemaFactory sf = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
        final InputStream schemaAsStream = Thread.currentThread().getContextClassLoader().getResourceAsStream(xsdSchemaName);
        unmarshaller.setSchema(sf.newSchema(new StreamSource(schemaAsStream)));

        unmarshaller.setEventHandler(vec);

        unmarshaller.unmarshal(new StreamSource(xmlFileIs), rootClass).getValue(); // The Document class is the root object in the XML file you want to validate

        for (String validationError : vec.getValidationErrors()) {
            logger.trace(validationError);
        }
    } catch (final Exception e) {
        logger.error("The validation of the XML file " + xmlFileName + " failed: ", e);
    }
}

class MyValidationEventCollector implements ValidationEventHandler {
    private final List<String> validationErrors;

    public MyValidationEventCollector() {
        validationErrors = new ArrayList<>();
    }

    public List<String> getValidationErrors() {
        return Collections.unmodifiableList(validationErrors);
    }

    @Override
    public boolean handleEvent(final ValidationEvent event) {
        String pattern = "line {0}, column {1}, error message {2}";
        String errorMessage = MessageFormat.format(pattern, event.getLocator().getLineNumber(), event.getLocator().getColumnNumber(),
                event.getMessage());
        if (event.getSeverity() == ValidationEvent.FATAL_ERROR) {
            validationErrors.add(errorMessage);
        }
        return true; // you collect the validation errors in a List and handle them later
    }
}
0赞 jschnasse 10/4/2018 #12

针对联机架构进行验证

Source xmlFile = new StreamSource(Thread.currentThread().getContextClassLoader().getResourceAsStream("your.xml"));
SchemaFactory factory = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
Schema schema = factory.newSchema(Thread.currentThread().getContextClassLoader().getResource("your.xsd"));
Validator validator = schema.newValidator();
validator.validate(xmlFile);

针对本地架构进行验证

使用 Java 进行离线 XML 验证

1赞 Loris Securo 9/21/2019 #13

使用 Woodstox 配置 StAX 解析器以针对架构进行验证并解析 XML。

如果捕获到异常,则 XML 无效,否则为有效:

// create the XSD schema from your schema file
XMLValidationSchemaFactory schemaFactory = XMLValidationSchemaFactory.newInstance(XMLValidationSchema.SCHEMA_ID_W3C_SCHEMA);
XMLValidationSchema validationSchema = schemaFactory.createSchema(schemaInputStream);

// create the XML reader for your XML file
WstxInputFactory inputFactory = new WstxInputFactory();
XMLStreamReader2 xmlReader = (XMLStreamReader2) inputFactory.createXMLStreamReader(xmlInputStream);

try {
    // configure the reader to validate against the schema
    xmlReader.validateAgainst(validationSchema);

    // parse the XML
    while (xmlReader.hasNext()) {
        xmlReader.next();
    }

    // no exceptions, the XML is valid

} catch (XMLStreamException e) {

    // exceptions, the XML is not valid

} finally {
    xmlReader.close();
}

注意:如果需要验证多个文件,则应尝试重复使用 AND 以最大限度地提高性能。XMLInputFactoryXMLValidationSchema