在文本摘要任务中预处理目标和输入，是否正确？-解网

问：

我正在准备数据来训练用于文本摘要任务的模型。我的数据包含两个字段 ARTICLES、SUMMARIES。两者都包含特殊字符、数字、sumbols 等字符。我想在预处理步骤中删除它们，但我怀疑如果我在两列上都执行预处理步骤，我会改变问题的上下文，并且模型会在执行预处理步骤后学习预处理的内容。如果我只对 ARTICLES 字段执行预处理步骤，例如删除 ARTICLES 中的所有数字，那么模型甚至不会生成带有数字的单个输出。

这里应该做什么，对摘要执行预处理步骤是否正确？

我在这两个字段上都执行了预处理步骤，但许多其他开发人员说。不应预处理目标。我训练了模型，获得了很好的准确性。但基本面正确吗？可以同时对文章和摘要执行预处理步骤吗？

文本 NLP 序列

预处理目标字段的决定应基于数据的性质和汇总任务的要求。预处理 ARTICLES 和 SUMMARIES 是合适的，前提是预处理步骤不会剥离关键的上下文或语义信息。这是关于在清理数据和保留其基本特征之间找到适当的平衡。由于您使用当前方法获得了良好的准确性，因此这表明您的预处理步骤可能适合您的特定数据集和任务。但是，请始终考虑评估生成的摘要的质量，而不仅仅是准确性，以确保它们与上下文相关且连贯。

上一个：getchar（）在 Enter 之前键入空格时提示输入

下一个：为什么未来的序列以这种方式运行？

在文本摘要任务中预处理目标和输入，是否正确？

Pre-processing the target along with inputs in a text summarization task, is it correct?

评论