R:stm + searchK 无法确定最佳主题数

R: stm + searchK fails to determine the optimal number of topics

提问人:larry77 提问时间:11/14/2023 最后编辑:larry77 更新时间:11/14/2023 访问量:44


请看一下文章末尾的独立示例。 我简化了 reprex,您可以从以下位置下载 dfm(文档功能矩阵)



  1. 当我使用 9 个主题运行 stm 时,其中一些似乎会产生重复的结果(至少在每个主题的前 10 个关键字中,请参阅回复中生成的图)。知道为什么吗?
  2. 当我尝试使用 stm 的 searchK() 函数来确定最佳主题数时,我收到一条我无法破译的错误消息。 至少在另一个用户身上也发生了同样的情况,请参阅

是什么原因导致缺少数据的 STM 主题建模中出现“下标越界”错误?



## Download the dfm matrix from

## https://e.pcloud.link/publink/show?code=XZmHFDZeObPiNtsGWfzuBlnVw2ryzATt1X7

dfm_mat <- readRDS("dfm_mat.RDS")

## see https://rstudio-pubs-static.s3.amazonaws.com/406792_9287b832dd9e413f97243628cb2f7ddb.html

## convert the dfm to a format suitable to stm.

dfm2stm <- convert(dfm_mat, to = "stm")

model.stm <- stm(dfm2stm$documents, dfm2stm$vocab, K = 9, data = dfm2stm$meta,
                 init.type = "Spectral") 
#> Topic 1: europe, can, european, new, need 
#>  Topic 2: union, need, europe, today, us 
#>  Topic 3: europe, union, work, european, need 
#>  Topic 4: union, need, europe, today, us 
#>  Topic 5: europe, can, european, new, need 
#>  Topic 6: europe, union, work, european, need 
#>  Topic 7: union, need, europe, today, us 
#>  Topic 8: europe, can, european, new, need 
#>  Topic 9: accelerate, union, need, europe, us 
## I make the model tidy.
## See  https://juliasilge.com/blog/sherlock-holmes-stm/

stm_tidy <- tidy(model.stm)

gpl <- stm_tidy  |> 
    group_by(topic)  |> 
    top_n(10, beta)  |> 
    ungroup()  |> 
    mutate(topic = paste0("Topic ", topic),
           term = reorder_within(term, beta, topic))  |> 
    ggplot(aes(term, beta, fill = as.factor(topic))) +
    geom_col(alpha = 0.8, show.legend = FALSE) +
    facet_wrap(~ topic, scales = "free_y") +
    coord_flip() +
    scale_x_reordered() +
    labs(x = NULL, y = expression(beta),
         title = "Highest word probabilities for each topic",
         subtitle = "Different words are associated with different topics")


## I can fit a model by stm with a chosen number of topics to the data

### Now I try determining the optimal number of topics using the searchK function

### See https://stackoverflow.com/questions/64989642/use-dfm-in-searchk-calcuation


K <- 5:15

 model_search <- searchK(dfm2stm$documents, dfm2stm$vocab, K,
data = dfm2stm$meta)
#> Error in missing$docs[[i]]: subscript out of bounds

## This fails but I do not understand why....

创建于 2023-11-14 with reprex v2.0.2

0赞 Ken Benoit 11/14/2023
问题第一部分中的 URL - 指向 .txt 文件的链接 - 不再起作用,因此我无法重现它。如果提供指向对象的链接,该怎么办?我想我知道发生了什么,但需要那个对象来验证。dfm_mat
0赞 larry77 11/14/2023
谢谢!我设法修改了 reprex,现在我包含一个指向 dfm_mat 对象的(工作!)链接。


1赞 Ken Benoit 11/14/2023 #1

我认为正在发生的事情是这样的:默认情况下,您的文档中只有三个文档,它试图删除其中的一半以用于保留集。这导致许多特征为零,这意味着在估计 中使用的主题模型时,默认情况下会从词汇中删除它们。 只需要非零特征,但认为集合是固定的,因此它会破坏函数内部的一些代码。(但是,我没有在代码中检查这一点。dfm_matsearchK()searchK()stm()searchK()vocab

> sum(colSums(dfm_sample(dfm_mat, size = 2)) == 0)
[1] 603
> sum(colSums(dfm_sample(dfm_mat, size = 2)) == 0)
[1] 583
> sum(colSums(dfm_sample(dfm_mat, size = 2)) == 0)
[1] 582

以下是删除 3 个文档中的 1 个文档的三个示例选项(0.50 四舍五入)。

您需要联系 stm 软件包维护人员,了解潜在的错误报告。或者,对于您的问题,使用更多文档并修剪低频文档。


0赞 larry77 11/14/2023
再次感谢。我刚刚在他们的 github 页面上向 stm 维护者报告了这一点。