在 Google Dataproc 上使用苏打水部署 H2O MOJO 时面临问题

Facing issues with H2O MOJO deployment using sparkling water on Google Dataproc

提问人:trougc 提问时间:8/19/2023 最后编辑:trougc 更新时间:8/23/2023 访问量:26

问:

我正在尝试将模型从Hadoop迁移到GCP。模型 MOJO 不会被重新训练。我正在使用 Airflow spark submit 在 Dataproc 中运行模型。 源数据格式与 Hadoop 源和所有内容匹配。运行模型时,出现以下错误:

Caused by: hex.genmodel.easy.exception.PredictUnknownCategoricalLevelException: Unknown categorical level (my_column,Y)

此列的值与我们在 Hadoop 上的值相同,并且一切正常。 模型是在 H20 版本上创建的,MOJO 版本是 。3.30.0.41.4

在运行我正在使用的 dataproc 集群时"PIP_PACKAGES": "h2o_pysparkling_3.1"

不确定问题出在哪里?请帮忙。

H2O 苏打水 h2o.ai

评论


答:

0赞 krasinski 8/23/2023 #1

你能试着启用吗?convertUnknownCategoricalLevelsToNa

以下是相关文档: https://s3.amazonaws.com/h2o-release/sparkling-water/spark-3.1/3.42.0.2-1-3.1/doc/deployment/load_mojo.html#customizing-the-mojo-settings