在笔记本中将 CSV 转换为 Parquet-解网

问：

我刚刚进入数据世界，并被要求创建一个自定义项目，我需要使用 Notebook （PySpark）将 CSV 转换为 parquet。到目前为止，我已经把它放在一起，它似乎运行没有错误，但我在 ADLS 的 Parquet 文件夹中没有任何内容。

def convert_csv_to_parquet(input_file_path, output_file_path):
    # Read CSV file into a Pandas DataFrame
    df = pd.read_csv(input_file_path)

    # Convert Pandas DataFrame to PyArrow Table
    table = pa.Table.from_pandas(df)

    # Write PyArrow Table to Parquet file
    pq.write_table(table, output_file_path)

    # Open the Parquet file
    table = pq.read_table(output_file_path)

    # Convert the table to a Pandas DataFrame
    df = table.to_pandas()

    # Print the DataFrame
    print(df.head(100))


input_file_path = 'abfss://[email protected]/MySQL_Project-Table_Courses.csv'
output_file_path = 'abfss://[email protected]/Parquet'

convert_csv_to_parquet(input_file_path, output_file_path)

pyspark 管道 apache-synapse

对于第一部分：

请参阅 PySpark 文档附带的示例。例如

另请参阅 PySpark SQL API 文档（PySpark SQL API 是 python API，而不是 SQL）。例如

对于第二部分：

使用云存储作为底层存储（ADLS、S3 等）时，您需要：

用适当的方案作为所有路径的前缀，例如，， ...s3aabfss
在 pyspark 环境中安装适当的 hadoop 扩展/库（对应/支持该方案）。PySpark 将使用它来读/写云存储。
在 Spark 配置中设置适当的配置参数，或用于身份验证的任何方式。

根据您的用例，有许多可用的指南，这里有一个，这里是另一个。

上一个：我只想在构建时在发布管道上运行我的生产阶段。开发也是如此

下一个：如何从 For Each 活动捕获 ADF 管道的输出查询

在笔记本中将 CSV 转换为 Parquet

Convert a CSV to a Parquet in a Notebook

评论

评论

对于第一部分：

对于第二部分：