使 SVM 在 python 中运行得更快

Making SVM run faster in python

提问人:Abhishek Bhatia 提问时间:7/28/2015 最后编辑:Abhishek Bhatia 更新时间:1/8/2022 访问量:91320

问:

在 python 中对 svm 使用以下代码

from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC
iris = datasets.load_iris()
X, y = iris.data, iris.target
clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto'))
clf.fit(X, y)
proba = clf.predict_proba(X)

但这需要大量的时间。

实际数据维度

train-set (1422392,29)
test-set (233081,29)

我怎样才能加快速度(并行或其他方式)?请帮忙。 我已经尝试过 PCA 和下采样。

我有6个班级。 编辑: 找到 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html 但我希望进行概率估计,而 svm 似乎并非如此。

编辑:

from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC,LinearSVC
from sklearn.linear_model import SGDClassifier
import joblib
import numpy as np
from sklearn import grid_search
import multiprocessing
import numpy as np
import math

def new_func(a):                              #converts array(x) elements to (1/(1 + e(-x)))
    a=1/(1 + math.exp(-a))
    return a

if __name__ == '__main__':
    iris = datasets.load_iris()
    cores=multiprocessing.cpu_count()-2
    X, y = iris.data, iris.target                       #loading dataset

    C_range = 10.0 ** np.arange(-4, 4);                  #c value range 
    param_grid = dict(estimator__C=C_range.tolist())              

    svr = OneVsRestClassifier(LinearSVC(class_weight='auto'),n_jobs=cores) ################LinearSVC Code faster        
    #svr = OneVsRestClassifier(SVC(kernel='linear', probability=True,  ##################SVC code slow
    #   class_weight='auto'),n_jobs=cores)

    clf = grid_search.GridSearchCV(svr, param_grid,n_jobs=cores,verbose=2)  #grid search
    clf.fit(X, y)                                                   #training svm model                                     

    decisions=clf.decision_function(X)                             #outputs decision functions
    #prob=clf.predict_proba(X)                                     #only for SVC outputs probablilites
    print decisions[:5,:]
    vecfunc = np.vectorize(new_func)
    prob=vecfunc(decisions)                                        #converts deicision to (1/(1 + e(-x)))
    print prob[:5,:]

编辑 2:user3914041 的答案产生了非常差的概率估计。

python scikit-learn SVM

评论

1赞 7/29/2015
量化“大量时间”。你用什么来分析你的代码?
1赞 rabbit 7/29/2015
您是否需要所有 140 万个训练示例?根据文档,拟合时间复杂度在训练样本的数量上超过二次。此外,您是否需要概率估计?这需要额外的交叉验证运行才能生成。
2赞 rabbit 7/29/2015
OneVsRestClassifier 附带了一个并行选项,但请注意,它可能会占用您的许多资源,因为拟合每个模型需要很长时间。尝试根据此处的文档设置 n_jobs 参数。
2赞 7/29/2015
尝试 Continuum 的 MKL 优化,请参阅 store.continuum.io/cshop/mkl-optimizations。他们提供 30 天免费试用,费用为 99 美元。我不是销售代表,但我使用他们的 Anaconda Python 发行版并喜欢它 - 它是在 Spark 峰会培训中推荐的。顺便说一句,Spark 支持 SVM,即使在小型 Spark 集群上运行它也会大大提高性能,请参见 spark.apache.org/docs/1.1.0/...
1赞 yangjie 7/29/2015
@TrisNefzger Spark 将不起作用,因为它不支持 SVM 的概率估计

答:

23赞 ldirer 7/29/2015 #1

SVM 分类器不那么容易扩展。从文档中,关于 .sklearn.svm.SVC

拟合时间复杂度大于 样本,这使得很难扩展到具有多个 一对 10000 个样本。

在scikit-learn中,您可以更好地扩展。 显然,它可以处理您的数据。svm.linearSVC

或者,您可以使用另一个分类器。如果你想要概率估计,我建议使用逻辑回归。 逻辑回归的另一个优点是不需要概率校准来输出“正确”的概率。

编辑:

我不知道复杂性,最后我在用户指南中找到了信息:linearSVC

另请注意,对于线性情况,LinearSVC 中使用的算法由 lib线性实现比其效率高得多 基于 libsvm 的 SVC 对应项,几乎可以线性扩展到数百万 样本和/或特征。

要从中获取概率,请查看此链接。它与我上面链接的概率校准指南只有几个链接,并且包含一种估计概率的方法。 即:linearSVC

    prob_pos = clf.decision_function(X_test)
    prob_pos = (prob_pos - prob_pos.min()) / (prob_pos.max() - prob_pos.min())

请注意,如果不进行校准,估计值可能会很差,如链接所示。

评论

0赞 Abhishek Bhatia 7/29/2015
感谢您的回复!关于缩放,@NBartley之前已经提到过。我尝试过逻辑回归,它的准确性较低。
1赞 Abhishek Bhatia 7/29/2015
感谢您的回复!但是 linearSVC 没有输出概率估计值的选项。
1赞 ldirer 7/29/2015
你是对的。一种可能的解决方法是使用该属性,就像在我给出的有关概率校准的链接中使用 LinearSVC 一样。不过,您肯定需要校准概率才能有意义。decision_function
0赞 Abhishek Bhatia 7/29/2015
您能否详细说明校准部分。
2赞 ldirer 7/29/2015
如果您有具体问题,请随时提出,但对于这个概念,我将无法比我在帖子中给出的链接做得更好。
135赞 Alexander Bauer 8/15/2015 #2

如果您想尽可能多地坚持使用 SVC 并在完整数据集上进行训练,则可以使用在数据子集上训练的 SVC 集成来减少每个分类器的记录数(这显然对复杂性有二次影响)。Scikit 通过包装器支持这一点。与单个分类器相比,这应该为您提供相似(如果不是更好)的准确性,并且训练时间要少得多。也可以使用该参数将各个分类器的训练设置为并行运行。BaggingClassifiern_jobs

或者,我也会考虑使用随机森林分类器 - 它本身支持多类分类,速度很快,并且在设置得当时给出了相当好的概率估计。min_samples_leaf

我对虹膜数据集进行了快速测试,该数据集使用 10 个 SVC 的集合进行了 100 次测试,每个 SVC 在 10% 的数据上进行了训练。它比单个分类器快 10 倍以上。这些是我在笔记本电脑上得到的数字:

单SVC:45s

Ensemble SVC:3 秒

随机森林分类器:0.5s

请参阅下面我用于生成数字的代码:

import time
import numpy as np
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC

iris = datasets.load_iris()
X, y = iris.data, iris.target

X = np.repeat(X, 100, axis=0)
y = np.repeat(y, 100, axis=0)
start = time.time()
clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto'))
clf.fit(X, y)
end = time.time()
print "Single SVC", end - start, clf.score(X,y)
proba = clf.predict_proba(X)

n_estimators = 10
start = time.time()
clf = OneVsRestClassifier(BaggingClassifier(SVC(kernel='linear', probability=True, class_weight='auto'), max_samples=1.0 / n_estimators, n_estimators=n_estimators))
clf.fit(X, y)
end = time.time()
print "Bagging SVC", end - start, clf.score(X,y)
proba = clf.predict_proba(X)

start = time.time()
clf = RandomForestClassifier(min_samples_leaf=20)
clf.fit(X, y)
end = time.time()
print "Random Forest", end - start, clf.score(X,y)
proba = clf.predict_proba(X)

如果要确保每条记录只用于训练一次,则可以将参数设置为 False。BaggingClassifierbootstrap

评论

1赞 Abhishek Bhatia 8/17/2015
感谢您的惊人回答!我不知道这些。除了速度,准确性也是我最关心的问题。如果可能的话,你能比较一下吗?我没有义务,如果你愿意,也请建议其他好的方法。SVC
0赞 jchook 10/5/2016
此外,您还可以查看用于随机森林或决策树。sklearn.ensemble.AdaBoostClassifier
1赞 fdelia 10/19/2017
如果你想要一个线性内核,你可以使用它基本相同,但用比 .sklearn.svm.LinearSVCsklearn.svm.SVC
0赞 CIsForCookies 12/28/2017
它的工作速度非常快,但据我了解,它不像 SVC 那样使用线性/多边形内核,它的准确性较低。我可以提高 的精度吗?RandomForestClassifierRandomForestClassifier
2赞 kaleemsagard 6/4/2020
这是一个很好的方法!:我在 F1 分数上得到了类似的结果;在没有 BaggingClassifier 的情况下运行时,需要 4 天 3 小时 27 分钟,但使用 BaggingClassifier 运行需要 31 分 8 秒
7赞 serv-inc 3/22/2017 #3

在顶部答案中简要提到了它;代码如下: 最快的方法是通过 n_jobs 参数: 替换行

clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto'))

clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto'), n_jobs=-1)

这将使用计算机上所有可用的 CPU,同时仍执行与以前相同的计算。

评论

0赞 artemis 1/5/2021
你会把参数传递给 or 吗?n_jobsOVR ClassifierBagging Classifier
0赞 serv-inc 1/8/2021
顶层,在本例中为 OvR
0赞 fatbringer 11/15/2022
对于我的 SVM,它只能在 n_jobs = 1 时进行训练。对于其他数字,它似乎只是停留在那里。是因为我使用图像作为输入数据吗?
9赞 Andreas Mueller 7/15/2017 #4

您可以使用 kernel_approximation 模块将 SVM 扩展到大量此类样本。

3赞 Mahmuda Keya 1/3/2021 #5

对于大型数据集,请考虑改用 LinearSVC 或 SGDClassifier,可能在 Nystroem 转换器之后。

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html