提问 发文

箱形图

微微菌

| 2023-06-16 13:35 149 0 0

箱形图是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。

箱子的顶端和底端,分别代表上下四分位数。箱子中间的是中位数线,它将箱子一分为二。从箱子延伸出去的线条展现出了上下四分位数以外的数据,由于这两根延伸出去的线像是胡须,因此箱形图也被称为盒须图。有时,箱形图上也会出现个别的点,在胡须的末端值以外,这代表离群值,也可称之为异常值。箱形图是非参数的:它们显示统计总体样本的变化,而不对基础统计分布做任何假设。框的不同部分之间的间距表示数据中的分散程度(扩散)和偏斜,并显示异常值。

箱形图最大的优势是,它以一种简单的方式,概括出一个或多个数值变量的分布,同时又不会占据太多空间。通过箱形图,我们可以很快知道一些关键的统计值,如中位数、上下四分位数等;也可以分析是否存在离群值、离群值分别是多少;整体来看,还可以检验数据是否对称、是否有偏向性,如果有,它偏向于哪一边;最后,我们还可以用多个箱型图,比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。

箱型图展示出了四分位数,通常盒子中间的一条线就是第二四分位数(中位数)。但是胡须的末端值(上边缘,下边缘)可以代表几种不同的值,其中包括:

(1)所有数据中的最大值和最小值;

(2)在[Q1-1.5IQR, Q3+1.5IQR]范围里的极小值和极大值 (通常被称为Tukey Boxplot);

(3)在平均数的基础上上下浮动一个标准差;

(4)第9百分位数,第91百分位数;

(5)第2百分位数,第98百分位数。

其中Tukey Boxplot的应用比较广泛,故本章将针对这一类型的 boxplot进行详细的描述。

收藏 0
分享
分享方式
微信

评论

全部 0条评论

10603

文章

10.51W+

人气

19

粉丝

1

关注

官方媒体

轻松设计高效搭建,减少3倍设计改稿与开发运维工作量

开始免费试用 预约演示

扫一扫关注公众号 扫一扫联系客服

©Copyrights 2016-2022 杭州易知微科技有限公司 浙ICP备2021017017号-3 浙公网安备33011002011932号

互联网信息服务业务 合字B2-20220090

400-8505-905 复制
免费试用
微信社区
易知微-数据可视化
微信扫一扫入群