如何称呼粗化数据的过程以使其更真实?

How would call the process of roughening Data to make it more realistic?

提问人:faulbär 提问时间:9/28/2023 最后编辑:faulbär 更新时间:9/28/2023 访问量:30

问:

在我目前的项目中,我使用合成网格数据,为了使其更逼真,我添加了噪声并省略了一些测量值,因为我不希望在真实网格中到处都有数据测量值。为了更好地捕获真实数据,是否有对合成数据进行粗加工的既定措辞?

到目前为止,我选择了“数据损伤”,但感觉不对,因为相对于现实世界的情况,生成的数据没有受损。另一方面,“数据增强”也不适合这一点,因为我没有通过这个过程获得更多数据。

举个例子: 假设我有一个三节点网格 A-B-C,在某个时间点,相应的(合成)电压矢量可能看起来像这样 [2, 5, 3],但是在实际场景中,我可能在节点 B 没有测量值,并且在测量节点 A 和 C 时有一些噪声。所以手头的向量看起来更像是这样的:[2.1, 0, 2.9]。为了测试我的网络在现实世界中的适用性,我想在第二类数据上训练它,从而转换第一种数据。

数据科学 术语

评论


答:

0赞 n-0 9/28/2023 #1

我没有具体的例子来说明你的数据的形状以及你计划如何处理它(DNN、回归等),我指的是数据科学堆栈交换中的以下问题。一般来说,在数据中添加噪声绝对是一种数据增强,以提高鲁棒性和减少过拟合,例如,在图像的亮度值中添加噪声,无论一天中的什么时间,图像识别算法的性能都更好。

省略数据通常是为了提取特征并产生更好的拟合(与前一种方法相反)。这有各种术语,仅举几例截功能选择。从这个意义上说,这两种方法都可以称为正则化,但截断的用途不同。也许运行一些测试来检查删除数据是否真的会产生更强大的结果。

评论

0赞 n-0 9/28/2023
别客气。我不确定您的情况是否有既定的术语,个人建议是“合成数据扰动”。