昨天写了一段用来做分层随机抽样的代码,很粗糙,不过用公司的2万名导购名单试了一下,结果感人,我觉得此刻的我已经要上天了,哈哈哈哈哈哈
代码如下:
#分层随机抽样 stratified sampling import xlrd, xlwt, time, random xl = xlrd.open_workbook(r'C:\Users\Administrator\Desktop\分层抽样.xlsx') xl_sht1 = xl.sheets()[0] xl_sht1_nrows = xl_sht1.nrows #表头 title = xl_sht1.row_values(0) #把样本写进列表 sample sample = [] for i in range(xl_sht1_nrows): sample.append(xl_sht1.row_values(i)) #打乱样本 random.shuffle(sample) #把层的内容写进列表 col col = xl_sht1.col_values(0) #对col中的内容进行计数,获得每一类的名称对应个数的字典 col_dict = {} for i in col: col_dict[i] = col_dict.get(i, 0) + 1 p = eval(input('每层抽取的比例(小数):')) #获得每一类的名称对应抽取个数的字典 col_p = {} k = 0 for i in col_dict.keys(): col_p[i] = int(round(col_dict[i] * p)) #round用来四舍五入,不加int结果会变成无数个p #开始抽样,把抽取结果写进result_l列表 result_l = [] for i in sample: if col_p.get(i[0], 0) > 0: result_l.append(i) col_p[i[0]] -= 1 #新建文档,写入结果 f = xlwt.Workbook() f_sht1 = f.add_sheet('result') n = 0 for i in title: f_sht1.write(0, n, i) n += 1 r = 1 for i in result_l: c = 0 for k in i: f_sht1.write(r, c, k) c += 1 r += 1 nowtime = time.strftime("%Y%m%d_%H%M%S", time.localtime()) f.save(r'C:\Users\Administrator\Desktop\Result_{0}.xls'.format(nowtime)) print('\n抽样成功!') input()
原理思路如下:
1、首先数据的形式如下
数据自带层标签,我只需要从每层抽取一定比例的数据就可以了
2、第一步:先将源数据按行存入一个列表,然后打乱行的顺序
3、第二步:对层标签进行计数,获取每一个层标签的总数,并将结果存进字典
4、第三步:根据抽样比例p,计算出每层实际应抽取的个数,并存入一个新的字典
5、第四步:从源数据列表中抽取出目标数据,每层抽取的个数由第三步的字典进行指定
小白刚刚起步,实现的时候发现自己对数据结构和算法一点也不懂。。。。结果就写了一堆的for循环。。。。
大神们如果看到这段代码,还请不吝赐教,看看代码可以怎样优化,或者有更好的设计思路
补充拓展:pandas实现对dataframe抽样的实现
随机抽样
import pandas as pd #对dataframe随机抽取2000个样本 pd.sample(df, n=2000)
分层抽样
利用sklean中的函数灵活进行抽样
from sklearn.model_selection import train_test_split #y是在X中的某一个属性列 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)
以上这篇python实现的分层随机抽样案例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
标签:
python,随机抽样
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
暂无“python实现的分层随机抽样案例”评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新动态
2024年11月09日
2024年11月09日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]