提问人:MigasTigas 提问时间:6/19/2020 最后编辑:EmmaMigasTigas 更新时间:6/23/2020 访问量:719
在间隔不均匀的时间序列中检测峰值
Peak detection in unevenly spaced timeseries
问:
我正在使用一个数据集,其中包含与类似内容相结合的度量值:datetime
datetime value
2017-01-01 00:01:00,32.7
2017-01-01 00:03:00,37.8
2017-01-01 00:04:05,35.0
2017-01-01 00:05:37,101.1
2017-01-01 00:07:00,39.1
2017-01-01 00:09:00,38.9
我正在尝试检测并删除可能出现的潜在峰值,例如测量。2017-01-01 00:05:37,101.1
到目前为止,我发现的一些事情:
- 该数据集的时间间隔从 15 秒一直到 25 分钟,使其非常不均匀;
- 峰的宽度无法事先确定
- 峰值的高度明显且显着地偏离了其他值
时间步长的归一化应仅在去除异常值后进行,因为它们会干扰结果
即使由于其他异常(例如,负值、平线)也“不可能”实现它,即使没有它们,它也会由于峰值而产生错误的值;
find_peaks
期望一个均匀间隔的时间序列,因此以前的解决方案不适用于我们拥有的不规则时间序列;- 关于这个问题,我忘了提到时间序列间隔不均匀的临界点。
我到处找,什么也找不到。实现将使用 Python,但我愿意挖掘其他语言来获取逻辑。
答:
0赞
MigasTigas
6/23/2020
#1
我已经在 github 上将这段代码发布给将来遇到此问题或类似问题的任何人。
经过大量的试验和错误,我认为我创造了一些有效的东西。利用@user58697告诉我的内容,我设法创建了一个代码,用于检测阈值之间的每个峰值。
通过使用他/她解释的逻辑,我编写了以下代码:if ((flow[i+1] - flow[i]) / (time[i+1] - time[i]) > threshold
首先读取 并解析日期,然后拆分为两个 numpy 数组:.csv
dataset = pd.read_csv('https://raw.githubusercontent.com/MigasTigas/peak_removal/master/dataset_simple_example.csv', parse_dates=['date'])
dataset = dataset.sort_values(by=['date']).reset_index(drop=True).to_numpy() # Sort and convert to numpy array
# Split into 2 arrays
values = [float(i[1]) for i in dataset] # Flow values, in float
values = np.array(values)
dates = [i[0].to_pydatetime() for i in dataset]
dates = np.array(dates)
然后将 应用于整个数据集:(flow[i+1] - flow[i]) / (time[i+1] - time[i])
flow = np.diff(values)
time = np.diff(dates).tolist()
time = np.divide(time, np.power(10, 9))
slopes = np.divide(flow, time) # (flow[i+1] - flow[i]) / (time[i+1] - time[i])
slopes = np.insert(slopes, 0, 0, axis=0) # Since we "lose" the first index, this one is 0, just for alignments
最后,为了检测峰值,我们将数据减少到每个周期的滚动窗口。这样我们就可以很容易地检测到它们:x
# ROLLING WINDOW
size = len(dataset)
rolling_window = []
rolling_window_indexes = []
RW = []
RWi = []
window_size = 240 # Seconds
dates = [i.to_pydatetime() for i in dataset['date']]
dates = np.array(dates)
# create the rollings windows
for line in range(size):
limit_stamp = dates[line] + datetime.timedelta(seconds=window_size)
for subline in range(line, size, 1):
if dates[subline] <= limit_stamp:
rolling_window.append(slopes[subline]) # Values of the slopes
rolling_window_indexes.append(subline) # Indexes of the respective values
else:
RW.append(rolling_window)
if line != size: # To prevent clearing the last rolling window
rolling_window = []
RWi.append(rolling_window_indexes)
if line != size:
rolling_window_indexes = []
break
else:
# To get the last rolling window since it breaks before append
RW.append(rolling_window)
RWi.append(rolling_window_indexes)
在获得所有滚动窗口后,我们开始乐趣:
t = 0.3 # Threshold
peaks = []
for index, rollWin in enumerate(RW):
if rollWin[0] > t: # If the first value is greater of threshold
top = rollWin[0] # Sets as a possible peak
bottom = np.min(rollWin) # Finds the minimum of the peak
if bottom < -t: # If less than the negative threshold
bottomIndex = int(np.argmin(rollWin)) # Find it's index
for peak in range(0, bottomIndex, 1): # Appends all points between the first index of the rolling window until the bottomIndex
peaks.append(RWi[index][peak])
此代码背后的思想是每个峰值都有一个上升和一个下降,如果两者都大于规定的阈值,那么它就是一个异常值峰值以及它们之间的所有峰值:
翻译成使用的真实数据集,发布在 github 上:
评论
if ((flow[i+1] - flow[i]) / (time[i+1] - time[i]) > threshold)