递归样本拆分方案（带网格搜索）-解网

问：

我有一个数据面板，例如，每个横截面中都有几个样本

import pandas as pd
import numpy as np

dates = ["2018-01-01", "2019-01-01", "2020-01-01", "2021-01-01", "2022-01-01"] * 2
dates.sort()
samples = [1, 2] * 5
df = pd.DataFrame(
    {
        "dates": dates,
        "samples": samples
    }
)

我想创建一个交叉验证生成器，我在其中进行了 3 次验证：

第一次，samples in 是训练样本，in 是验证样本;["2018-01-01", "2019-01-01"]["2020-01-01"]
第二次，samples in 是训练样本，in 是验证样本;["2018-01-01", "2019-01-01", "2020-01-01"]["2021-01-01"]
最后一次，samples in 是训练样本，in 是验证样本。["2018-01-01", "2019-01-01", "2020-01-01", "2021-01-01"]["2022-01-01"]

简而言之，训练集递归增加，而验证集保持恒定长度。

我曾考虑过功能，但问题是：PredefinedSplit()sklearn.model_selection

如您所见，我没有每次都包含所有样本（无论是在测试集还是验证集中）;
["2020-01-01"]在第一次和第二次验证中处于训练集，但不是第一次验证。

这让无能为力。PredefinedSplit()

我的问题是：如何定制这个拆分方案？最好保留它，因为我想将这个拆分方案传递到网格搜索中？sklearnGridSearchCV()

python pandas 机器学习 scikit-learn

递归样本拆分方案（带网格搜索）

A recursive sample splitting scheme (with grid searching)

评论