在文本摘要任务中预处理目标和输入,是否正确?

Pre-processing the target along with inputs in a text summarization task, is it correct?

提问人:ranjith kumar neeruganti 提问时间:11/11/2023 更新时间:11/15/2023 访问量:18

问:

我正在准备数据来训练用于文本摘要任务的模型。我的数据包含两个字段 ARTICLES、SUMMARIES。两者都包含特殊字符、数字、sumbols 等字符。我想在预处理步骤中删除它们,但我怀疑如果我在两列上都执行预处理步骤,我会改变问题的上下文,并且模型会在执行预处理步骤后学习预处理的内容。如果我只对 ARTICLES 字段执行预处理步骤,例如删除 ARTICLES 中的所有数字,那么模型甚至不会生成带有数字的单个输出。

这里应该做什么,对摘要执行预处理步骤是否正确?

我在这两个字段上都执行了预处理步骤,但许多其他开发人员说。不应预处理目标。我训练了模型,获得了很好的准确性。但基本面正确吗?可以同时对文章和摘要执行预处理步骤吗?

文本 NLP 序列

评论


答:

0赞 Doyin Akindotuni 11/15/2023 #1

预处理目标字段的决定应基于数据的性质和汇总任务的要求。预处理 ARTICLES 和 SUMMARIES 是合适的,前提是预处理步骤不会剥离关键的上下文或语义信息。这是关于在清理数据和保留其基本特征之间找到适当的平衡。由于您使用当前方法获得了良好的准确性,因此这表明您的预处理步骤可能适合您的特定数据集和任务。但是,请始终考虑评估生成的摘要的质量,而不仅仅是准确性,以确保它们与上下文相关且连贯。