编码 windows-1251 的 Spark-XML 问题
作者:Владислав Черкасов 提问时间:8/9/2023
我在使用 spark-xml API (pyspark 2.4.0) 解析 pyspark 中的 XML 文档时遇到了问题。我有一个包含带有以下开始标签的 cyryllic 内容的文件: <?xml...
apache-Spark 问答列表
作者:Владислав Черкасов 提问时间:8/9/2023
我在使用 spark-xml API (pyspark 2.4.0) 解析 pyspark 中的 XML 文档时遇到了问题。我有一个包含带有以下开始标签的 cyryllic 内容的文件: <?xml...
作者:codingprabhu 提问时间:10/12/2023
我有一个要求,我需要使用 Spark SQL 以这种方式将字符串转换为双精度: 12.56 - 12.56 15.40 - 15.40 12 - 12 0 - 0 我们不需要四舍五入,只需要只要...
作者:Wael Othmani 提问时间:8/3/2023
假设我有两个 Spark 数据帧: from pyspark.sql import SparkSession # Create a SparkSession spark = SparkSessio...
作者:Joseph Hwang 提问时间:7/24/2023
我在 Windows 3.4.1 上使用 spark-3.4.1-hadoop3-hadoop1。我尝试生成要传递到函数参数from_csv架构。 以下是我的代码。 import org.apach...
作者:Moisés 提问时间:7/26/2023
我们尝试使用以下方法在 SQL Server (V2005) 中保存 DataFrame: df_cards.write.jdbc(url=conn_str, table=tablename, mo...
作者:Nemanja 提问时间:7/15/2023
我有数据帧,我想将其另存为多个xml文件。这是我的代码: employees .repartition(col("first_name")) .write() .option("maxRec...
作者:chingu 提问时间:7/11/2023
我有一个需要选择的列列表。我有此列表中每列的字段名称,因此很容易选择。 public Column[] getSelectColumns() { return new Column[]{ col...
作者:chingu 提问时间:7/11/2023
我正在使用 Spark Java(不是 scala、python)。 我必须更改我的代码,以便我的 spark 查询将选择所有列,而不是一组特定的列。(喜欢使用 )。以前,当我有一组特定的列时,我很...
作者:chingu 提问时间:7/11/2023
我正在使用 Spark SQL Java(不是 scala 或 python)。这是我的数据集的简化示例(它的列比这多得多): 编号 引用 E_id F_id G_id 0 [E_id] 0000 ...
作者:chingu 提问时间:7/8/2023
我正在使用 Spark Java(不是 scala 或 python)。 我有一个数据帧,我想从行访问特定字段。如果它是 String,我已经能够获得字段值,但我不知道如果它是 Long、Int 该...