提问人:Mehdi Jafari 提问时间:11/15/2023 最后编辑:Mehdi Jafari 更新时间:11/15/2023 访问量:16
Databricks Autoloader 重新激活全 null 列
Databricks Autoloader resucues an all null column
问:
我们正在使用 Azure Functions 将一些 txt 文件模拟到 parquet。然后,Databricks Autoloader 读取 parquet 文件。为了让 Autoloader 将原始 txt 文件中的空白/空值读取为 s,我们设置了将任何空白/空值解析为的函数,否则它们将被读取为空/空白值,并且这在整个数据集中不会一致,因为其他数据类型的列(例如,如果日期为空,则自动加载器会自动读取它们为空)。问题在于,当整个列(字符串或双精度)具有 null 值时,Autoloader 会不断将它们全部推送到_rescued_data列。这不会发生在自动读取空/空白值的列上,因为它只发生在我们在函数中解析它们的地方。有没有办法解决这个问题,即让 Autoloader 读取空白/空值,但是当整个列都有 s 时,它不会被拯救?null
None
null
null
None
null
null
Azure 函数使用 nullable_str() lambda 函数分配字符串列类型,如下所示: def nullable_str(): return lambda x: str(x) if x != '' else None 我们不想使用 None 的 '' instread(这会导致整个列之间不一致)。
答: 暂无答案
评论