如何相应地聚集鲨鱼攻击?

How to cluster shark attack accordingly?

提问人:Daa Zaa 提问时间:11/8/2023 更新时间:11/8/2023 访问量:16

问:

我目前正在从事一个涉及分类的项目。这个项目是关于鲨鱼攻击的,我想将攻击分为以下几类:信息不足、错误攻击、喂食攻击和好奇攻击。我遇到的问题是我使用的是 K-mean,并且分类根据人类活动对其进行分类(我不需要,因为我的数据集上有该列)。如何更改代码以达到我想要的结果?

更多信息是我从pdf报告中提取了鲨鱼攻击。pdf 报告没有可用于所需分类的标签。因此,我正在尝试创建一个分类模型,该模型可以根据上下文将攻击分类为上述类别。

这是我的代码。我必须运行此代码 3 次才能“准确”地对鲨鱼攻击进行分类。 (如果需要,链接到 Google Colab

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import pandas as pd

# TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=10000, stop_words='english') 

# Fit TfidfVectorizer and apply to K-Mean
tfidf_matrix = vectorizer.fit_transform(df_pdftext['s9_rejoin'])
kmeans = KMeans(n_clusters=7, random_state=42)
kmeans.fit(tfidf_matrix3)

# Cluster to df
df_pdftext['cluster_label3'] = kmeans.labels_

# Count # of cluster
print(df_pdftext['cluster_label3'].value_counts())
Python NLP NLTK 文本分类

评论

0赞 NLP from scratch 11/10/2023
如果没有标记的数据,则不会进行分类。您需要手动标记数据(或使用标记服务或模型)并进行分类,或者探索要复杂得多的零样本方法。

答: 暂无答案