您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 重尾分布 >

ML-for hackers 第二章笔记

发布时间:2019-06-15 21:21 来源:未知 编辑:admin

  本章讲解如何用R的基本方法做出摘要表和基本的可视化,并看出变化趋势;并介绍了分布曲线的特点以及分类。

  本章所说的数值摘要就是一些基本的统计项目:均值和众数、百分数和中位数、标准差和方差;

  一种常用的的变量编码方式:虚拟变量编码(dummy coding),如0表示正常电子邮件,1表示垃圾电子邮件,用0和1对一个对象的定性属性进行描述的方法。

  quantile()分位数,默认情况,会给出数据集的0%、25%、50%、75%以及100%位置处的数据。含义:第N个分位数就表示数据集中有N%的数据小于它

  标准差和方差给出数据散布程度,最小值和最大值无法给出数据集的整体情况,R的内置函数sd()和var()实现;

  上面是一些基本的统计学术语,接下来对数据作出可视化的相关技术介绍,并介绍一些常用的分布

  binwidth参数通过设定组距来调节平滑度这对平滑程度的试验非常重要。

  采用较大区间宽度时,对称性不存在,只有顶峰,这是oversmoothing(过平滑);与之相反的问题则称为欠平滑(undersmoothing).

  2.选择另外一种可视化方法,即核密度估计(KDE)或叫做密度曲线图(density plot)

  对于密度曲线图而言,adjust参数控制了曲线的平滑程度(adjust取值越大,曲线越平滑);

  密度曲线能够在大数据集上更加接近我们所期望的理论形状,此外,密度曲线也有一些理论优势:揭示数据潜在的形状。

  发现两个部分重叠的钟形曲线;(正态分布也称为高斯分布或钟形曲线),上面的混合分布就是把两个正态分布组合而成的。

  调整正态分布的均值和方差,改变钟形曲线的中心和其伸缩宽度(注:钟形并不是判断数据是否为正态分布的充要条件,因为还存在其他钟形分布)

  连续数值的众数可用可视化的方法解释清楚:当构建一条密度曲线时,数据的众数就在钟形的峰值处。(可视化方法估计众数,密度曲线要比直方图容易。)正态分布所定义的众数的有一个特点,它只有一个众数,同时也是数据的均值和中位数。

  从定性的区别来划分两类数据:对称分布(symmetric)数据和偏态分布(skewed)数据。

  从另一个定性的区别来划分出两类数据:窄尾分布(thin-tailed)数据和重尾分布(heavy-tailed)数据;

  窄尾分布所产生的值通常都在均值附近,99%的可能性都是这样,比如正态分布在99%的情况下所产生的数据偏离均值都不会超过三个标准差,相比之下,另一个钟形分布-柯西分布(cauchy distribution)大约只有90%的值落在三个标准差范围内,距离均值越远,这两个分布的特点越不同:正态分布几乎不可能产生距离均值有6个标准差的值,然而柯西分布仍有5%的可能性。

  正态分布是单峰的,对称分布,也是钟形的窄尾分布;柯西分布也是单峰的,对称的分布,也是钟形曲线,却是重尾分布;

  伽马分布是向右倾斜的,意味着中位数和均值有时差距很大,伽马分布 只有正值;

  指数分布的众数出现在0值处,它特别像是把钟形曲线切掉一半后留下的正值部分(指数分布满足的条件是:数据集中频数最高的是0,并且只有非负值出现)

  为了能正常使用评论、编辑功能及以后陆续为用户提供的其他产品,请激活账号。

  本网站部分文章来自互联网,对于此类文章本站仅提供相关推荐和交流平台,不为其版权承担责任。如果您发现本网站上有侵犯您的知识产权的信息(文字或图片),请发送邮件至:通知我们,予以删除。

http://gibsonfabrics.com/zhongweifenbu/61.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有