点击排行

您现在的位置：首页 > 技术文档 > Python库/模块大全

Pandas之groupby( )用法笔记小结

来源：中文源码网浏览：168 次日期：2024-05-10 15:25:26

Pandas之groupby( )用法笔记小结
groupby官方解释
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)
Group series using mapper (dict or key function, apply given function to group, return result as series) or by a series of columns.
讲真的，非常不能理解pandas官方文档的这种表达形式，让人真的有点摸不着头脑，example给得又少，参数也不给得很清楚，不过没有办法，还是只能选择原谅他。
groupby我用过的用法
基本用法我这里就不呈现了，我觉得用过一次的人基本不会忘记，这里我主要写一下我用过的关系groupby函数的疑惑：
apply & agg
这个问题着实困扰了我很久，经过研究，找了一些可能帮助理解的东西。先举一个例子：
import pandas as pd
df = pd.DataFrame({'Q':['LI','ZHANG','ZHANG','LI','WANG'], 'A' : [1,1,1,2,2], 'B' : [1,-1,0,1,2], 'C' : [3,4,5,6,7]})
A
B
C
Q
0
1
1
3
LI
1
1
-1
4
ZHANG
2
1
0
5
ZHANG
3
2
1
6
LI
4
2
2
7
WANG
df.groupby('Q').apply(lambda x:print(x))
A B C Q
0 1 1 3 LI
3 2 1 6 LI
A B C Q
0 1 1 3 LI
3 2 1 6 LI
A B C Q
4 2 2 7 WANG
A B C Q
1 1 -1 4 ZHANG
2 1 0 5 ZHANG
df.groupby('Q').agg(lambda x:print(x))
0 1
3 2
Name: A, dtype: int64
4 2
Name: A, dtype: int64
1 1
2 1
Name: A, dtype: int64
0 1
3 1
Name: B, dtype: int64
4 2
Name: B, dtype: int64
1 -1
2 0
Name: B, dtype: int64
0 3
3 6
Name: C, dtype: int64
4 7
Name: C, dtype: int64
1 4
2 5
Name: C, dtype: int64
A
B
C
Q
LI
None
None
None
WANG
None
None
None
ZHANG
None
None
None
从这个例子可以看出，使用apply()处理的对象是一个个的类如DataFrame的数据表，然而agg()则每次只传入一列。
不过我觉得这一点区别在实际应用中分别并不大，因为Ipython的Out输出对于这两个函数几乎没有差别，不管是处理一列还是一表。
我觉得agg()有一点让我很开心就是他可以同时传入多个函数，简直不要太方便哈哈：
df.groupby('Q').agg(['mean','std','count','max'])
A
B
C
mean
std
count
max
mean
std
count
max
mean
std
count
max
Q
LI
1.5
0.707107
2
2
1.0
0.000000
2
1
4.5
2.121320
2
6
WANG
2.0
NaN
1
2
2.0
NaN
1
2
7.0
NaN
1
7
ZHANG
1.0
0.000000
2
1
-0.5
0.707107
2
0
4.5
0.707107
2
5
Plotting
这个也是我刚刚学会的，groupby的plot简直不要太方便了：(不过这个例子选的不是很好)
%matplotlib inline
df.groupby('Q').agg(['mean','std','count','max']).plot(kind='bar')

MultiIndex
这个是困扰我最多的一个问题，因为如果我groupby的时候选择了两个level，之后的data总是呈现透视表的形式，如：
Muldf = df.groupby(['Q','A']).agg('mean')
print(Muldf)
B C
Q A
LI 1 1.0 3.0
2 1.0 6.0
WANG 2 2.0 7.0
ZHANG 1 -0.5 4.5
我开始甚至以为这应该不是dataframe，是一个我可能没注意过的一个东西，可是后来我发现，这不过是MultiIndex形式的一种dataframe罢了。
Muldf.B
Q A
LI 1 1.0
2 1.0
WANG 2 2.0
ZHANG 1 -0.5
Name: B, dtype: float64
如果要选择某一个index，用`xs()`函数：
Muldf.xs('LI')
B
C
A
1
1.0
3.0
2
1.0
6.0
PS：有个问题困扰好久了，怎么把multiindex对象变回原来的形式呢。如：
Multiindex格式如下：（a, b, c, ...），
index
column
(a1,b1,c1)
d1
(a2,b2,c2)
d2
直接调用函数reset_index()，Multiindex中（a, b, c, ...）就变成columns了，index重置为（0,1,2,...), 如下：
index
column
0
a1
b1
c1
d1
1
a2
b2
c2
d2
以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持中文源码网。

上一篇：Pandas之MultiIndex对象的示例详解

下一篇：Pandas之Fillna填充缺失数据的方法

点击排行

您现在的位置：首页 > 技术文档 > Python库/模块大全

Pandas之groupby( )用法笔记小结

相关内容