使用 DataFrame 进行混合内容 XML 分析-解网

问：

我有一个包含混合内容的 XML 文档，我正在使用 Dataframe 中的自定义架构来解析它。我遇到了一个问题，即架构只会获取“度量”的文本。

XML 如下所示

<QData>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Measure>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Meaure>
</QData>

我的架构如下：

def getCustomSchema():StructType = {StructField("QData",
      StructType(Array(
        StructField("Measure",
          StructType( Array( 
            StructField("Answer",StringType,true),
            StructField("Question",StringType,true)                
        )),true)
      )),true)}

当我尝试访问 Measure 中的数据时，我只得到“这里有一些文本”，当我尝试从 Answer 获取信息时，它失败了。我也只是得到一个措施。

编辑：这就是我尝试访问数据的方式

val result = sc.read.format("com.databricks.spark.xml").option("attributePrefix", "attr_").schema(getCustomSchema)
    .load(filename.toString)

val qDfTemp = result.mapPartitions(partition =>{val mapper = new QDMapper();partition.map(row=>{mapper(row)}).flatMap(list=>list)}).toDF()

case class QDMapper(){
    def apply(row: Row):List[QData]={
        val qDList = new ListBuffer[QData]()
        val qualData = row.getAs[Row]("QData") //When I print as list I get the first Measure text and that is it
        val measure = qualData.getAs[Row]("Measure") //This fails
}
}

scala apache-spark 数据帧 xml 解析

使用 DataFrame 进行混合内容 XML 分析

Mixed Content XML parsing using DataFrame

评论