Python pandas自定义函数的使用方法示例

脚本专栏 2026/6/6 佚名

3 2 1

本文实例讲述了Python pandas自定义函数的使用方法。分享给大家供大家参考，具体如下：

自定义函数的使用

import numpy as np
import pandas as pd
# todo 将自定义的函数作用到dataframe的行和列 或者Serise的行上
ser1 = pd.Series(np.random.randint(-10,10,5),index=list('abcde'))
df1 = pd.DataFrame(np.random.randint(-10,10,(4,5)),index=list('ACBD'),columns=list('abcde'))
# todo 定义一个函数，求其和，绝对值，最大值减最小值的差值，平方
def func(x):
 # print(x)
 print('--------------')
 num= np.max(x)-np.min(x)
 a = abs(x)
 b= x**2
 # return num
 # return a
 return b
print(ser1.apply(func))
def func1(x):
 # print(x)
 print('--------------')
 # num= np.max(x)-np.min(x)
 a = abs(x)
 b= x**2
 # return num
 # return a
 return b
print(df1.apply(func1,axis = 1))
# todo 使用匿名函数实现----求其和，绝对值，最大值减最小值的差值，
print(df1.apply(lambda x:x**2,axis=1))
print('------')
print(df1.apply(lambda x:np.max(x)-np.min(x),axis=1))
print('---------')
print(df1.apply(lambda x:abs(x),axis=1))
# applymap的使用
# todo 使用applymap 因为applymap作用在每个元素上，所以不需要指定axis
print(df1.applymap(lambda x:x**2))
print('---------')
print(df1.applymap(lambda x:abs(x)))

排序

import numpy as np
import pandas as pd
ser1 = pd.Series(np.random.randint(-10,10,10),index=list('acbdfeghji'))
df1 = pd.DataFrame(np.random.randint(-10,10,(4,5)),index=list('ADBC'),columns=list('abcde'))
print(ser1)
print(df1)
print('------------------')
# todo 按照索引排序 sort_index（）
# print(ser1.sort_index())#默认升序
# print(ser1.sort_index(ascending=False))#指定ascending为降序
# print(df1.sort_index())#默认行升序
# print(df1.sort_index(ascending=False))#行降序
# print(df1.sort_index(axis=1))#列升序
# print(df1.sort_index(ascending=False,axis=1))#列降序
# todo 按照值排序
print(ser1.sort_values())#默认升序
print(ser1.sort_values(ascending=False))#指定ascending为降序
# dataframe 对象比较复杂，需要按照哪一列来进行排序
print(df1.sort_values(by='a'))#默认列升序
print(df1.sort_values(by='a',ascending=False))#列降序
print(df1.sort_values(by='A',axis=1))#行升序
print(df1.sort_values(by='A',ascending=False,axis=1))#行降序

数据重构

import numpy as np
import pandas as pd
ser1 = pd.Series(np.random.randint(-10,10,10),index=[list('aabbccddee'),[1,2,1,2,1,2,1,2,1,2]])
df1 = pd.DataFrame(np.random.randint(-10,10,(4,5)),index=list('aabb'),columns=list('abcde'))
print(ser1)
print(df1)
print('-----------------------')
# todo 外层索引取值
print(ser1['a'])#获取单个外层索引
print(ser1['a':'e'])#获取多个外层
# todo 内层索引取值
print(ser1[:,1])
# todo 指定外层，内层索引取值
print(ser1['a',1])
# todo 交换分层-----swaplevel()
print(ser1.swaplevel())
# todo 将Sterise转为dataframe对象外层索引作为行索引，内层索引作为列索引
print(ser1.unstack())
# todo 将dataframe转为Sterise对象行索引作为外层索引行索引，列索引作为内层索引列
print(df1.stack())
# todo dataframe 转字典
print(df1.to_dict())
# todo dataframe 转csv文件
print(df1.to_csv())

数据连接操作

import numpy as np
import pandas as pd
df1 = pd.DataFrame(
 {'key1':list('abcdefgh'),'data1':np.random.randint(-5,10,8)}
)
df2 = pd.DataFrame(
 {'key2':list('defgh'),'data2':np.random.randint(-5,10,5)}
)
print(df1)
print(df2)
print('--------------------------')
# todo 链接
# print(pd.merge(df1,df2,on='key'))# key相同时 通过key连接df1,df2
# print(pd.merge(df1,df2))#不指定，连接df1,df2默认通过相同的列来连接
# print(pd.merge(df1,df2,on=data1))#data1相同时 通过data1连接df1,df2
#todo 交集
print(pd.merge(df1,df2,left_on='key1',right_on='key2'))
#todo 并集
print(pd.merge(df1,df2,how='outer',left_on='key1',right_on='key2'))
#todo 左连接
print(pd.merge(df1,df2,how='left',left_on='key1',right_on='key2'))
#todo 右连接
print(pd.merge(df1,df2,how='right',left_on='key1',right_on='key2'))
# todo 通过行索引来指定
print(pd.merge(df1,df2,left_on='data1',right_index=True))#left_on指定左表的列索引为外健，right_index作业为右表的行索引作为外检
print(pd.merge(df1,df2,left_index=True,right_index=True))#left_index,right_index,默认的情况下，将两张表按照航索引的相同情况，合成一条数据
print(pd.merge(df1,df2,how='left',left_index=True,right_index=True))# 按照行进行连接，也能指定链接方式

注意点:

1.how = inner,默认的,内连接,多表的交集
2.how = outer,外连接,多表的并集
3.how = left,指定为左连接,展示左表的完整数据,不管右表有没有匹配
4.how = right,指定为右连接,展示右表的完整数据,不管左表有没有匹配

数据的合并

import numpy as np
import pandas as pd
# todo np数组的合并 np.concatenate() ,参与合并的数组，纬度大小是一致的，axis=1 为行排序
# arr1 = np.random.randint(10,20,(3,4))
# arr2 = np.random.randint(10,20,(3,4))
# print(arr1)
# print(arr2)
# print('-------------')
# print(np.concatenate((arr1,arr2),axis=0)) #列合并
# print('----------')
# print(np.concatenate((arr1,arr2),axis=1)) # 行合并
# todo pd的合并 pd.concat()
# ser1 = pd.Series(np.random.randint(10,20,3))
# ser2 = pd.Series(np.random.randint(10,20,5))
# ser3 = pd.Series(np.random.randint(10,20,7))
# print(ser1)
# print(ser2)
# print(ser3)
# print('-------------')
#
# print(pd.concat([ser1,ser2,ser3]))#多个Serise 对象需要用【】包起来，默认是列合并
# print(pd.concat([ser1,ser2,ser3],axis=1))# axis=1 行合并 ,不够的部分用NAN填充
# print(pd.concat([ser1,ser2,ser3],axis=1,join='outer'))# 默认是outer 并集
df1 = pd.DataFrame(
 {'key1':list('abcdefgh'),'data1':np.random.randint(-5,10,8)}
)
df2 = pd.DataFrame(
 {'key2':list('abcde'),'data2':np.random.randint(-5,10,5)}
)
print(pd.concat((df1,df2)))# 默认按照列合并
print(pd.concat((df1,df2),axis=1))# 按照行合并
print(pd.concat((df1,df2),axis=1,join='inner'))# 交集合并

分组

import pandas as pd
import numpy as np
df1 = pd.DataFrame(
 {'key1':list('abcdefgh'),'data1':np.random.randint(-5,10,8),'key2':list('11223344'),'data2':np.random.randint(-5,10,8)}
)
print(df1)
df2 = pd.DataFrame(
 {'key2':list('abcde'),'data2':np.random.randint(-5,10,5)}
)
print('----------------')
# todo 分组 groupby()
group_obj = df1.groupby(by='key2')#通过key1进行分组,返回一个分组对象，分组之后可以用函数进行下一步处理，计算过程中，非数字的数据不参与计算
# print(group_obj)
# print('--------rrrr-------')
# print(group_obj.sum()) # 分组求和
# print(group_obj.mean()) # 分组求均值
# print(group_obj.size()) # 每个分组的元素个数
# print(group_obj.count()) # 每个分组之后，列名里面的个数
#
# # todo 迭代分组对象 注意点：1.每一个元素形式（分组名，属于分组的数据）2.属于该分组的数据，也是dataframe对象
# for i in group_obj:
#  print(i)
# print('----------')
# # todo 迭代分组对象的拆分
# for name,data in group_obj:
#  print('---')
#  print(name)
#  print(data)
#
# # todo 分组对象转列表
# print(list(group_obj))
# # todo 分组对象转字典
# print(dict(list(group_obj)))
#
#
#
#
# # todo 聚合（数组产生标量的过程，常常用于分组之后的数据运算）
# # todo 内置的聚合函数
# # todo sum() 求和
# # todo mean（）平均值
# # todo size（）
# # todo max()
# # todo min()
# # todo count
#
# print(group_obj.describe()) #查看具体的聚合数据
# todo 使用单个内置函数
# print(group_obj.agg('max'))#agg里面可以填写内置函数，如果需要使用内置的函数，要用字符串的形式填写
# print(group_obj.agg('min'))
# # todo 使用多个内置函数
# print(group_obj.agg(['max','min','mean']))#需要用列表的形式
# # todo 使用内置的函数取中文别名
# print(group_obj.agg([('最大值','max'),('最小值','min'),('均值','mean')]))# 第一个参数是别名
# todo 自定义函数
def print1(x):
 # print(x)
 ret = x.max()-x.min()
 return ret
print(group_obj.agg([('差值',print1)]))
# todo 匿名函数
print(lambda x:x.max()-x.min())
# todo data1求最大值，data2 求最小值 不同的列用不同的函数
print(group_obj.agg(
 {
  'data1':['max'],
  'data2':[('最小值','min')]
 }))

数据分组之后再合并

import pandas as pd
import numpy as np
# todo 分组聚合之后数据的处理
dict_new = {
 'data1':np.random.randint(5,15,8),
 'data2':np.random.randint(5,15,8),
 'data3':4,
 'key1':list('aabbccdd'),
 'key2':['one','two','three','one','two','three','one','two']
}
df1 = pd.DataFrame(dict_new,index=list('ADCBFEGH'))
print(df1)
# # todo 按照key1进行分组,
# groupy_obj = df1.groupby(by='key1')
# print(groupy_obj)
# for name,data in groupy_obj:
#  print(name)
#  print(data)
# # todo 分组之后进行求和操作
# sum_data_group = groupy_obj.sum()
# print(sum_data_group)
# # todo 分组之后增加前缀
# sum_data_group = sum_data_group.add_prefix('group_key1')
# print(sum_data_group)
# # todo 先用merge进行关联
# merge_df = pd.merge(df1,sum_data_group,left_on='key1',right_index=True)#左表的列名，右表的行索引名
# print(merge_df)
# todo 取数据的两列分组
groupby_obj = df1.loc[:,['data1','data2']].groupby(df1['key1'])#选区数据其中的数据，按照数据中的列进行分组
# todo 求和
data = groupby_obj.sum()
data1 = groupby_obj.transform('sum').add_prefix('trans_group')#transform 来计算会维持原来的数据结构
# todo 按行合并
print(pd.concat([df1,data1],axis=1))

关于Python相关内容感兴趣的读者可查看本站专题：《Python函数使用技巧总结》、《Python面向对象程序设计入门与进阶教程》、《Python数据结构与算法教程》、《Python字符串操作技巧汇总》、《Python编码操作技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python,pandas,自定义函数

标签：

Python,pandas,自定义函数

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

评论“Python pandas自定义函数的使用方法示例”

Python pandas自定义函数的使用方法示例

暂无“Python pandas自定义函数的使用方法示例”评论...

www.imxmx.com 杰晶网络

8,675无损音乐

1,324高清电影

213破解软件

120,141站长资源

Python pandas自定义函数的使用方法示例

自定义函数的使用

排序

数据重构

数据连接操作

数据的合并

分组

数据分组之后再合并

Python,pandas,自定义函数

使用Python实现正态分布、正态分布采样

Python求正态分布曲线下面积实例

评论“Python pandas自定义函数的使用方法示例”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新动态

友情链接

Python pandas自定义函数的使用方法示例

自定义函数的使用

排序

数据重构

数据连接操作

数据的合并

分组

数据分组之后再合并

Python,pandas,自定义函数

使用Python实现正态分布、正态分布采样

Python求正态分布曲线下面积实例

评论“Python pandas自定义函数的使用方法示例”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新动态

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存