(一)机器学习---概述_一夜奈何梁山的博客-程序员宅基地

技术标签: 数据分析  

一:人工智能概述:

1:人工智能应用的场景:

  • 1:人脸识别技术,图像识别技术。
  • 2:机器翻译:谷歌翻译,有道翻译。
  • 3:后台日志分析。

2:人工智能,机器学习,深度学习的关系:

  • 1:机器学习是人工智能的一个实现途径。
  • 2:深度学习是机器学习的一个方法发展而来的。

二:机器学习概述:

1:什么是机器学习?

答:机器学习就是从数据中自动分析获取模型,并利用模型对位置数据进行预测。

2:机器学习的工作流程:

  • 1: 获取数据。
  • 2:数据的基本处理。
  • 3:特征工程
  • 4:机器学习(模型训练)
  • 5:模型评估(结果达到要求,上线服务。结果没有达到要求,重复上面步骤)

3:数据集:

  • 1:一行数据我们称为一个样本
  • 2:一列数据我们称为一个特征
  • 3:目标值:例如:我们要判断这个电影是什么类型的,则电影类型就是目标值。有些数据没有目标值。

4:数据的类型:

  • 1:类型一:特征值 + 目标值(目标值是连续的和离散的)例如:房价就是连续的,肿瘤是良性还是恶性的就是离散的。连续的目标对应着回归问题,离散的目标对应的是分类问题。
  • 2:类型二:只有特征值,没有目标值。

5:数据分割:

  • 1:训练集:用于训练,构建模型。70%
  • 2:测试集:在模型验证检验时使用,用于评估模型是否有效。30%

6:数据的基本处理:

  • 1:缺失值
  • 2:异常值

7:特征工程:

  • 1:啥叫特征工程? 利用专业知识处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
  • 2:意义:影响机器学习的效果。
    -3:为啥要有特征工程?吴恩达:数据和特征决定机器学习的上线,而模型和算法只是逼近这个上线而已。
  • 4:特征工程的内容:特征提取特征预处理特征降维
  • 5:特征提取:将图像/文本,转换成机器学习的特征数:例如词频。
  • 6:特征预处理:通过转换函数将特征数据转换成更加适合的算法模型数据的过程。
  • 7:降维:三维转二维。

8:机器学习:

  • 运用算法对模型进行训练。

9:模型评估:

  • 对训练好的模型进行评估。

三:机器学习算法分类:

  • 1:监督学习
  • 2:无监督学习
  • 3:半监督学习
  • 4:强化学习

1:监督学习

  • 输入的数据:特征值+目标值
  • 输出可以是一个连续的值(回归)
  • 输出的是有限个离散值(分类)

案例一:回归问题:房价可以取一个区间,所以是回归问题。

在这里插入图片描述
案例二:分类问题:要么是良性的,要么是恶性的,所以是分类问题,只能取这两个离散点。
在这里插入图片描述

2:无监督学习:

  • 1:有特征值,无目标值。

3:半监督学习:

  • 1:训练集中有编辑样本数据和没有标记的样本标签,需要我们根据训练集中的打过标签的,来给没有打过标签的打标签。

4:强化学习:

  • 1:理解:如果我没完成作业,去看电视,则父母给批评,我得到负反馈。如果我做完作业,再去看电视,父母给我的是表扬,我得到的是正反馈。强化学习就是根据正负反馈来不断调整我机器学习的参数,不断优化。

在这里插入图片描述

四:模型的评估:

1:分类模型评估:

  • 1:准确率(最重要的)
  • 2:召回率
  • 3:F1-score
  • 4:AUC指标

2:回归模型评估:

  • 1:均方根误差(RMSE)
  • 2:相对平方误差(RSE)
  • 3:平均绝对误差(MAE)
  • 4:相对绝对误差(RAE)
    在这里插入图片描述
    在这里插入图片描述

3:拟合:

  • 1:欠拟合:达不到要求。如果识别天鹅,给出特征长嘴,双翅。则特征不够,鸡鸭也符合。
  • 2:过拟合:表现过于优越,导致测试数据集表现不佳。如果识别天鹅中增加特征值 颜色=白色,则黑色天鹅识别不出来,此时就是过拟合。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41341757/article/details/110671435

智能推荐

计算机图形学:四元数_JiNan.YouQuan.Soft的博客-程序员宅基地

Quaternion(四元组,四元数)是爱尔兰数学家William Rowan Hamilton(1805-1865)在1843年发明的一个纯粹数学概念。最初,Hamilton为了表示矩阵相除而引入,但是直到一个实际之后,Quaternion才逐渐应用到了计算机图形学、电磁学等领域。一、定义二、数学性质三、应用网络资料参考文献...

网络系统集成复习大纲_刻痕桑的博客-程序员宅基地

概念梳理网络系统集成:网络系统集成即是在网络工程中根据应用的需要,运用系统集成方法,将硬件设备,软件设备,网络基础设施,网络设备,网络系统软件,网络基础服务系统,应用软件等组织成为一体,使之成为能组建一个完整、可靠、经济、安全、高效的计算机网络系统的全过程。分类:技术集成、软硬件产品集成、应用集成优点:责任的单一性;用户的需求能得到最大的满足;系统内部的一致性;系统集成商能保证用户得到最好的方案网络规划与设计:在一定的方法和原则指导下,对网络进行分析,逻辑设计与物理设计。设计各个阶段需求

美国春季计算机博士入学的学校,美国春季博士留学申请时间规划_寒霜血蝶的博客-程序员宅基地

智课选校帝小编整理美国春季博士留学申请时间规划,希望对准备留学美国春季博士们有所帮助。4月制定美国博士留学规划:对于自己的学术背景优势劣势有个准备定位,参加语言培训,考试,比如TOEFL ,GMAT或GRE考试。5月准备申请材料:开始美国博士留学春季入学的文书材料准备,制订实施一些专业申请方向相关的背景提升可行方案。6月-7月选校:结合语言成绩、初步选校的范围,7月基本确定申请的学校名单,开始填写...

笔记本电脑CPU低压、标压、高压的区别_1个字的博客-程序员宅基地_笔记本高压和标压区分

电脑中低压版和高压版一般是指 IntelCPU(处理器)的性能。低压版是指低电压 CPU(处理器) ,性能较差,但功耗也更低,日常续航时间更长。高压版是指高电压 CPU (处理器),性能强劲,但功耗高,日常续航时间短。一般笔记本用型号后缀来区分低压高压。M:笔记本专用CPU,一般为双核,M前面一位数字是0,意味着是标准电压处理器,如果是7,则是低电压处理器。U:笔记本专用低电压CPU,一般为双核,U前面一位数字为8,则是28W功耗的低压处理器(标准电压双核处理器功耗为35W),若前一位数字为7,则.

【转】【UML】使用Visual Studio 2010 Team System中的架构师工具(设计与建模)_weixin_30954265的博客-程序员宅基地

Lab 1:应用程序建模实验目标这个实验的目的是展示如何在Visual Studio 2010旗舰版中进行应用程序建模。团队中的架构师会通过建模确定应用程序是否满足客户的需求。 你可以创建不同级别的详细模型,并将它们彼此结合、测试然后发布到你的开发计划里。在这个实验中, 我们将重点放在如何创建一系列简单的系统建模图形上.每个练习应该在 30分钟内完成.Exercise 1 –...

CRISP-DM_weixin_30216561的博客-程序员宅基地

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin...

随便推点

学习C++之前要学C语言吗?_青铜小码农的博客-程序员宅基地_学c++要先学c吗

C++ 读作“C加加”,是“C Plus Plus”的简称。顾名思义,C++是在C语言的基础上增加新特性,玩出了新花样,所以叫“C Plus Plus”,就像 iPhone 6S 和 iPhone 6、Win10 和 Win7 的关系。从语法上看,C语言是C++的一部分,C语言代码几乎不用修改就能够以C++的方式编译,这给很多初学者带来了不小的困惑,学习C++之前到底要不要先学习C语言呢?我对这个...

『杭电1284』钱币兑换问题_漠宸离若的博客-程序员宅基地

Problem Description在一个国家仅有1分,2分,3分硬币,将钱N兑换成硬币有很多种兑法。请你编程序计算出共有多少种兑法。Input每行只有一个正整数N,N小于32768。Output对应每个输入,输出兑换方法数。Sample Input293412553Sample Output71883113137761AuthorSmallBeer(CML)Source杭电ACM集训队训练赛(VII)Recomm

mapreduce python实例_使用python写一个最基本的mapreduce程序_章华燕的博客-程序员宅基地

一个mapreduce程序大致分成三个部分,第一部分是mapper文件,第二个就是reducer文件,第三部分就是使用hadoop command 执行程序。在这个过程中,困惑我最久的一个问题就是在hadoop command中hadoop-streaming 也就是streaming jar包的路径。路径大概是这样的:cd ~cd /usr/local/hadoop-2.7.3/share/ha...

Java BigDecimal toEngineeringString()方法与示例_cumtv80668的博客-程序员宅基地

BigDecimal类的toEngineeringString()方法 (BigDecimal Class toEngineeringString() method)toEngineeringString() method is available in java.math package. toEngineeringString()方法在java.math包中可用。 toEngineerin...

深度学习学习笔记(二)_白衣西蜀梅子酒的博客-程序员宅基地

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、深度学习的实践层面1.1 训练,验证,测试集1.2 偏差,方差1.3 正则化1.3.1 为什么正则化有利于预防过拟合?1.3.2 Dropout regularization1.3.3 其他正则化方法1.4 提升神经网络训练速度的方法1.5 梯度消失和梯度爆炸1.6 神经网络的权重初始化1.7 梯度检验前言此篇博客主要记录机器深度学习第二周的课程笔记。提示:以下是本篇文章正文内容,下面案例可供参考一、深度学习的实

qam映射c程序_DVB-C系统中QAM调制与解调仿真_慢潜空间站的博客-程序员宅基地

本文简单记录一下自己学习《通信原理》的时候调试的一个仿真DVB-C(Cable,数字有线电视)系统中QAM调制和解调的程序。自己一直是研究“信源”方面的东西,所以对“信道”这方面的知识进行实践的机会一直不是很多,做这个小程序的过程中也熟悉了不少相关的知识。在这个程序中,每执行一步操作,都会画出时域信号图和频域信号图,同时会在控制台打印出有关变量的取值,对于理解QAM调制与解调有一定的帮助。一.DV...

推荐文章

热门文章

相关标签