在 R 中按相似(但不相同)的行名称合并数据集

Merge datasets in R by similiar (but not the same) row names

提问人:Mateus Maciel 提问时间:5/25/2023 更新时间:5/25/2023 访问量:7

问:

我有两个关于城市名称、州 (uf) 和年份的数据集。主要问题是它们的名称在这些数据集中以不同的形式书写。他们之间唯一正确的是年份和状态。

year    uf  municipality
2013    RO  Ariquemes
2018    RO  Ariquemes
2020    RO  Ariquemes
2017    RO  Ariquemes
2015    RO  Ariquemes
2019    RO  Ariquemes
2016    RO  Ariquemes
2014    RO  Ariquemes
2018    RO  Cabixi
2017    RO  Cabixi
2019    RO  Cabixi
2013    RO  Cabixi
2020    RO  Cabixi
2016    RO  Cabixi
2014    RO  Cabixi
2015    RO  Cabixi
2019    RO  Cacoal
2018    RO  Cacoal
2017    RO  Cacoal

count   year    uf  municipality
2   2015    ES  Vara de Infância e Juventude - COLATINA
9   2016    ES  1ª Vara da Infância e Juventude - VILA VELHA
3   2014    ES  Vara de Infância e Juventude - LINHARES
11  2014    ES  1ª Vara da Infância e Juventude - SERRA
2   2013    ES  2ª Vara - IBIRAÇU
3   2013    ES  Vara de Infância e Juventude - ITAPEMIRIM
1   2013    ES  2ª Vara da Comarca de Afonso Cláudio
3   2017    ES  Vara de Infância e Juventude - CACHOEIRO DE ITAPEMIRIM
1   2015    ES  2ª Vara - CONCEIÇÃO DA BARRA
1   2013    ES  Vara de Infância e Juventude - LINHARES
4   2015    ES  Vara de Infância e Juventude - CACHOEIRO DE ITAPEMIRIM
1   2015    ES  Vara Única - JAGUARÉ
1   2013    ES  2ª Vara - ALEGRE
1   2013    ES  2ª Vara - PANCAS
2   2014    ES  2ª Vara - PANCAS
11  2018    ES  1ª Vara da Infância e Juventude - SERRA
4   2021    MG  2 VARA CIVEL, CRIMINAL E DA INFANCIA E DA JUVENTUDE DA COMARCA DE GUANHAES

我想做以下事情:使用 R,我想按直辖市 uf 和年份合并这些数据集,但必须有一种方法来近似市镇的名称,这些名称的写法不同。我知道它会是这样的:

base <- merge(dataset1, dataset2, by=c("year", "municipality", "uf"))

但是,由于“直辖市”中的名称不完全相同,因此我不断收到错误。如何解决此问题?

合并 近似值

评论


答: 暂无答案