加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-27 04:21:44 所属栏目:教程 来源:程序员ACE
导读:副标题#e# 常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像,那下面这篇系统长文会很适合你,建议先收藏。 Excel 是数据分析中最常用的工具,本文通过 Python 与 excel 的

在前面的基础上增加第二个列名称,分布对 city 和 size 两个字段进行计数汇总。

  1. #对两个字段进行汇总计数 
  2. df_inner.groupby(['city','size'])['id'].count() 
  3. city size 
  4. beijing A 1 
  5. F 1 
  6. guangzhou A 1 
  7. shanghai A 1 
  8. B 1 
  9. shenzhen C 1 
  10. Name: id, dtype: int64 
  11.  
  12. Read more: http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html#ixzz5rvDL89Gn 

除了计数和求和外,还可以对汇总后的数据同时按多个维度进行计算,下面的代码中按城市对 price 字段进行汇总,并分别计算 price 的数量,总金额和平均金额。

  1. #对city字段进行汇总并计算price的合计和均值。 
  2. df_inner.groupby('city')['price'].agg([len,np.sum, np.mean]) 
一文看懂怎么用 Python 做数据分析

数据透视

Excel 中的插入目录下提供“数据透视表”功能对数据表按特定维度进行汇总。Python 中也提供了数据透视表功能。通过 pivot_table 函数实现同样的效果。

一文看懂怎么用 Python 做数据分析

数据透视表也是常用的一种数据分类汇总方式,并且功能上比 groupby 要强大一些。下面的代码中设定 city 为行字段,size 为列字段,price 为值字段。分别计算 price 的数量和金额并且按行与列进行汇总。

  1. #数据透视表 
  2. pd.pivot_table(df_inner,index=["city"],values=["price"],columns=["size"],aggfunc=[len,np.sum],fill_value=0,margins=True) 
一文看懂怎么用 Python 做数据分析

08 数据统计

第九部分为数据统计,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。

数据采样

Excel 的数据分析功能中提供了数据抽样的功能,如下图所示。Python 通过 sample 函数完成数据采样。

一文看懂怎么用 Python 做数据分析

Sample 是进行数据采样的函数,设置 n 的数量就可以了。函数自动返回参与的结果。

  1. #简单的数据采样 
  2. df_inner.sample(n=3) 
一文看懂怎么用 Python 做数据分析

Weights 参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。这里手动设置 6 条数据的权重值。将前面 4 个设置为 0,后面两个分别设置为 0.5。

  1. #手动设置采样权重 
  2. weights = [0, 0, 0, 0, 0.5, 0.5] 
  3. df_inner.sample(n=2, weights=weights) 
  4.  
  5. Read more: http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html#ixzz5rvCvwN2y 
一文看懂怎么用 Python 做数据分析

从采样结果中可以看出,后两条权重高的数据被选中。

一文看懂怎么用 Python 做数据分析

Sample 函数中还有一个参数 replace,用来设置采样后是否放回。

  1. #采样后不放回 
  2. df_inner.sample(n=6, replace=False) 
一文看懂怎么用 Python 做数据分析
  1. #采样后放回 
  2. df_inner.sample(n=6, replace=True) 
一文看懂怎么用 Python 做数据分析

描述统计

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读