null - 程序员宅基地

Libsvm和Liblinear的使用经验谈<转>_liblinear libsvm 求解过程-程序员宅基地

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性能和非线性的分类器性能相当，所以Liblinear是针对大数据而生的。

两者都是一个跨平台的通用工具库，支持windows/linux/mac os,代码本身是c++写的，同时也有matlab，python，java，c/c++扩展接口，方便不同语言环境使用，可以说是科研和企业人员的首选！像我这样在学校的一般用matlab/c++，而我同学在百度则主要用的是python/c++，所以只是各自侧重不一样，但所使用的核心还是其svm库。

以上Libsvm和Liblinear的主页上都有windows下的binary文件下载，zip,tar格式都有，解压后，找到matlab子文件目录，参看里面的readme文件，需要在matlab中进入此目录，运行make.m文件，matlab会根据本机默认的c/c++编译器将.c文件生成为.mexw32文件(由于我是32位操作系统，此处为mexw32,对于64位os，则对应为mexw64)，提供matlab下能使用的接口。之后生成了这些.mexw32文件复制到你自己的matlab工程根目录中，就可以在matlab文件中调用libsvm/liblinear库中的函数了~

http://blog.sina.com.cn/s/blog_5bd2cb260100ev25.html 这位网友对libsvm在matlab中的使用说明的很详细，可以参考下。

有关Liblinear和Libsvm各自的优势可以归纳如下：

1.libsvm用来就解决通用典型的分类问题

2.liblinear主要为大规模数据的线性模型设计

it can be able to handle large-scaled dataset 可以用来处理大规模的数据
it runs really faster than libsvm because it doesn't have to compute thekernel for any two points 由于采用线性核,所以不需要计算kernel value,速度更快
trust region method for optimization looks new for machine learning people

以下为一位网友采用liblinear进行数据分类的实验性能说明“

”今天试用了以下liblinear，速度很快（快到我没有想到），
我的实验数据：
训练集：21504 * 1500（1500是样本的数量，21504是维度）
测试集：21504 * 2985
速度用秒来衡量，20次实验总共不到2分钟。

同样的问题我用了libsvm实验速度上相差太大，libsvm实验5次，每次将近10分钟，时间是其次，发现一个问题就是，libsvm比liblinear的结果相差1个百分点，没有读liblinear的文章，不知道问题出在那个地方，libsvm我直接用的默认参数，线性模型。这样必然引起一个问题，如果我想评价线性模型和非线性模型的性能，我不可能一个用liblinear一个用libsvm,如果两个都用libsvm，报告的性能肯定有一些问题。

所以如果你的问题维度很大（线性模型就有非常好的性能），不妨考虑liblinear. “

大致看了一下libsvm和liblinear的说明文档，发现一个问题就是在线性问题上两者的目标函数就不一样，所以性能上的差异是正常的，应该说如果优化同一样的目标函数两者性能应该会差不多，但是速度很明显，liblinear快很多。

对于什么时候用线性模型的问题，我想上面的我举的例子用linear classifier就比较好，非线性分类不一定比线性分类器好，尤其是在样本及其有限，同时特征维度很高的情况下，因为样本有限的情况下，kernel map通常不准确，很有可能错误地划分类别空间，可能造成比线性模型更差的结果。

说到scale，我建议不要用libsvm里自带的scale，因为一旦使用这个工具，它就会把原来稀疏的数据，变成非稀疏的格式，这样不但会生成非常大的数据文件，而且liblinear对稀疏数据快速处理的优势就不能体现出来了。因此，要scale，就自己写一个，以保持原来稀疏的格式

liblinear的好处就是速度快，尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存，数据量再大就没法做了。

另外，还有一个经常提到的svm库SVM-per：http://www.cs.cornell.edu/people/tj/svm_light/svm_perf.html 是康奈尔大学的人设计的。好像对计算机硬件的性能要求比liblinear要低...有做图像处理的人使用这个svm-per代替liblinear。

另外，对于多分类问题以及核函数的选取，以下经验规则可以借鉴：

如果如果特征数远远大于样本数的情况下,使用线性核就可以了.
如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.
如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。

对于多分类问题：

对于15类场景来说，每类100幅训练图像，如果直接训练一个15类的multi-class classifier，则训练文件的Label值取1～15，wi标记不用指定（default 1）。如果对于每个类单独训练一个分类器，这样就把这个类的100幅图像作为正样本（假设Label=1），而其余所有的训练图像作为负样本（共1400幅，假设Label=-1），由此可以看出正负样本不平

原文地址：http://blog.sina.com.cn/s/blog_5b29caf7010127vh.html

本文链接：https://blog.csdn.net/yongjian_luo/article/details/40742013

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

java常见面试题（160道）_java面试题-程序员宅基地

文章浏览阅读5.4w次，点赞89次，收藏746次。java常见面试题_java面试题

LeetCode刷题总结（C语言版）_leetcode c语言-程序员宅基地

文章浏览阅读5.4k次，点赞6次，收藏73次。编程总结每每刷完一道题后，其思想和精妙之处没有地方记录，本篇博客用以记录刷题过程中的遇到的算法和技巧001）两数之和给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的两个整数。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] ..._leetcode c语言

小程序开发者工具正常显示，但是真机调试和真机中安卓加载正常ios加载首页失败，首页的请求返回204_苹果 sec-fetch-dest-程序员宅基地

文章浏览阅读125次。检查请求头中的’sec-fetch-dest’: ‘document’ ，是否进行了特殊处理（node层）_苹果 sec-fetch-dest

ansible 批量安装zabbix-agent-程序员宅基地

文章浏览阅读321次。服务器初始化（这是在建立在新的服务器基础上做的初始化）关闭防火墙、selinux，添加epel常用源，安装常用工具、添加普通用户并禁止root1、服务器批量初始化[root@fwd ansible]# cat init.yml 系统初始化脚本---- hosts: all tasks: - name: disable selinux、firew..._ansible批量安装zabbix-agent

java日志系统--log4j配置解析过程，源码分析_log4j 源码分析读取配置-程序员宅基地

文章浏览阅读1.4w次，点赞3次，收藏2次。Logger.getLogger(Test.class);从getLogger开始，就启动了log4j的整个工作流程，通过调用LogManager获取logger实例return LogManager.getLogger(clazz.getName());LogManager类里面有个静态块static{}，【初始化重要信息】【root logger】，做一些配置，其中url = Loader.ge_log4j 源码分析读取配置

心灵震撼《一个8岁女孩的遗书》看完能有几人不哭…-程序员宅基地

文章浏览阅读533次。无奈的父亲有一个美丽的小女孩，她的名字叫余艳，她有一双亮晶晶的大眼睛她有一颗透明的童心.她是一个孤儿，她在这个世界上只活了8年，她留在这个世界上最后的一句话是“我来过，我很乖”她希望死在秋天，纤瘦的身体就像一朵花自然开谢的过程.在遍地黄花堆积，落叶空中旋舞的时候，她会看见横空远行的雁儿们.她自愿放弃治疗，把全世界华人捐给她的54万分成了7份，把生命当成希望的蛋糕分给了7个正徘徊在生死线上的小

随便推点

EV/HEV中的牵引逆变器驱动优化-程序员宅基地

文章浏览阅读1.6k次，点赞42次，收藏35次。什么是牵引逆变器？从本质上讲，牵引逆变器是电动汽车动力系统中的一个子系统，它从电池中获取高电压，并将其转换为交流电压——因此被称为逆变器——并基本上为电机供电。它控制电机速度和扭矩，直接影响效率和可靠性，这正成为牵引逆变器设计的设计挑战。此图片来源于网络如今的电动汽车至少有一个牵引逆变器。有些型号实际上不止一个。一个在前轴上，一个在后轴上。甚至一些高端车型实际上每个车轮都有一个牵引逆变器。因此，效率和可靠性非常重要。所以，从逆变器和电机控制的市场趋势来看——从技术趋势来看，我们看到了功率水平的提高。

Ubuntu之apt命令_ubuntu18.04 atp命令使用技巧-程序员宅基地

文章浏览阅读134次。简介apt-cache和apt-get是apt包的管理工具，他们根据/etc/apt/sources.list里的软件源地址列表搜索目标软件、并通过维护本地软件包列表来安装和卸载软件。查看本机是否安装软件：whereis package_name 或者which package_name1.搜索软件sudo apt-cache search pa..._ubuntu18.04 atp命令使用技巧

查询Dynamics 365的Audit History_dynamics 审核历史记录如何查询-程序员宅基地

文章浏览阅读150次。【代码】查询Dynamics 365的Audit History。_dynamics 审核历史记录如何查询

python yield函数的用法-程序员宅基地

文章浏览阅读1.3w次，点赞15次，收藏66次。什么是yield函数?yield函数是python里面的关键字,带有yield的函数相当于一个生成器generator.当你使用一个yield的时候，对应的函数就是一个生成器在python里面类似于return函数,他们主要的区别就是:遇到return会直接返回值,不会执行接下来的语句.但是yield并不是,在本次迭代返回之后,yield函数在下一次迭代时，从上一次迭代遇到的yield后面的代码(下一行)开始执行下面是案例分析:案例一:def gen_generator(): yiel_yield函数

【QT笔记】QFile读文件问题_qfileread后指针会移动吗-程序员宅基地

文章浏览阅读917次。如果不用seek(0)的话，默认是自己会把读取文件的指针后移的，不用手动后移；_qfileread后指针会移动吗

dw8051基本测试示例_dw8051 part1-程序员宅基地

文章浏览阅读2.5k次。整理了网上一份简单的dw8051测试示例，共享到云盘：http://pan.baidu.com/s/1bnu9lZT1.目录如下：---dut ---rtl：DW8051的core文件 ---model：ROM和RAM的model文件---testbench ---rtl.f：filelist文件 ---test_top.v：仿真的top_dw8051 part1