csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法

一、一种比较通俗理解的分割方法

1.先读取总的csv文件数据：

import pandas as pd

data = pd.read_csv('D:\BaiduNetdiskDownload\weibo_senti_100k\weibo_senti_100k\weibo_senti_100k.csv')

data.head(10)#输出前十行

data.label.value_counts()#查看标签类别及数目

2.按照标签将总的dataframe分割为两份，一份为标签为1，一份为标签为0

groups = data.groupby(data.label)

data_true = groups.get_group(1)

data_false = groups.get_group(0)

data_true.head(10),data_false.head(10)

3.

data_true = data_true.sample(frac=1.0)  # 全部打乱

data_false = data_false.sample(frac=1.0)  # 全部打乱

#给测试集两种标签各600个，按照大概8：1：1的比例取

test_true = data_true.iloc[:600, :]

test_false = data_false.iloc[:600, :]

test_data = pd.concat([test_true, test_false], axis = 0, ignore_index=True).sample(frac=1)

#验证集

valid_true = data_true.iloc[600:1200, :]

valid_false = data_false.iloc[600:1200, :]

valid_data = pd.concat([valid_true, valid_false], axis = 0, ignore_index=True).sample(frac=1)

#训练集

train_true = data_true.iloc[1200:, :]

train_false = data_false.iloc[1200:, :]

train_data = pd.concat([train_true, train_false], axis = 0, ignore_index=True).sample(frac=1)

4.生成csv文件

test_data.to_csv('test.csv')

valid_data.to_csv('val.csv')

train_data.to_csv('train.csv')

二、不通俗方法

可以看出上面的方法不断地生成新的dataframe太麻烦了些，虽然直观醒目，但在代码编写上很是繁冗，于是可以使用apply方法避免这种问题

1.为便于讲解，先生成一个简单的dataframe：

df = pd.DataFrame({'label':[0,0,0,0,1,1,1,1], 'review':['aa', 'bb', 'cc', 'dd', 'ee', 'ff', 'gg', 'hh']})

2.首先定义一个简单的分层取样函数，frac为取样概率，group为一个单独的dataframe

def simpleSampling(group, frac):

    return group.sample(frac=frac)

3.接下来使用apply函数对分组后的每一个组（即一个dataframe）进行函数操作

train_df = df.groupby(df.label).apply(simpleSampling, 0.5)

可以看到多了一列label标签，可以使用sample(frac=1, ignore_index = True)消除它

4.在生成了train数据集后，我们需要把train从原df中删除掉，但是dataframe没有直接删除的方法，我们迂回的使用删除重复行的方法：

df = df.append(train_df.sample(frac=1, ignore_index=True)).drop_duplicates(keep = False)

可以看到df只剩上图的几行了，接下来生成测试集和验证集

5.我们如果要生成原数据集0.25比例的验证集，那么需要注意的是，在将train删除后，在新的数据集中我们的比例就变成了p(val) = p(test) = 0.25 / 0.5 = 0.5

val_df = df.groupby(df.label).apply(simpleSampling, 0.5).sample(frac=1, ignore_index = True)

test_df = df.append(val_df).drop_duplicates(keep=False)

train_df.to_csv('train_csv')

val_df.to_csv('val_csv')

test_df.to_csv('test_csv')

至此我们的数据集就已经成功分割了，以上两种方法原理相同，只是第二种方法巧妙地应用了apply函数，避免了一个接一个的新的dataframe的生成。

csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法的相关教程结束。

《csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法.doc》

下载本文的Word格式文档，以方便收藏与打印。

csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法

一、一种比较通俗理解的分割方法

1.先读取总的csv文件数据：

2.按照标签将总的dataframe分割为两份，一份为标签为1，一份为标签为0

3.

4.生成csv文件

二、不通俗方法

1.为便于讲解，先生成一个简单的dataframe：

2.首先定义一个简单的分层取样函数，frac为取样概率，group为一个单独的dataframe

3.接下来使用apply函数对分组后的每一个组（即一个dataframe）进行函数操作

4.在生成了train数据集后，我们需要把train从原df中删除掉，但是dataframe没有直接删除的方法，我们迂回的使用删除重复行的方法：

5.我们如果要生成原数据集0.25比例的验证集，那么需要注意的是，在将train删除后，在新的数据集中我们的比例就变成了p(val) = p(test) = 0.25 / 0.5 = 0.5

至此我们的数据集就已经成功分割了，以上两种方法原理相同，只是第二种方法巧妙地应用了apply函数，避免了一个接一个的新的dataframe的生成。

csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法的相关教程结束。

相关推荐

Python分割多空格字符方法

Meta AI 开源万物可分割 AI 模型(SAM)

PHP大文件分割上传 PHP分片上传

CVPR2020论文解读：三维语义分割3D Semantic Segmentation

【HMS Core】机器学习服务助力APP快速集成图像分割与上传功能

Linux Shell编程第5章——文件的排序、合并和分割

MySQL（逻辑分层，存储引擎，sql优化，索引优化以及底层实现(B+Tree)）

linux shell文件合并去重分割

csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法

一、一种比较通俗理解的分割方法

1.先读取总的csv文件数据：

2.按照标签将总的dataframe分割为两份，一份为标签为1，一份为标签为0

3.

4.生成csv文件

二、不通俗方法

1.为便于讲解，先生成一个简单的dataframe：

2.首先定义一个简单的分层取样函数，frac为取样概率，group为一个单独的dataframe

3.接下来使用apply函数对分组后的每一个组（即一个dataframe）进行函数操作

4.在生成了train数据集后，我们需要把train从原df中删除掉，但是dataframe没有直接删除的方法，我们迂回的使用删除重复行的方法：

5.我们如果要生成原数据集0.25比例的验证集，那么需要注意的是，在将train删除后，在新的数据集中我们的比例就变成了p(val) = p(test) = 0.25 / 0.5 = 0.5

至此我们的数据集就已经成功分割了，以上两种方法原理相同，只是第二种方法巧妙地应用了apply函数，避免了一个接一个的新的dataframe的生成。

csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法的相关教程结束。

相关推荐

Python分割多空格字符方法

Meta AI 开源万物可分割 AI 模型(SAM)

PHP大文件分割上传 PHP分片上传

CVPR2020论文解读：三维语义分割3D Semantic Segmentation

【HMS Core】机器学习服务助力APP快速集成图像分割与上传功能

Linux Shell编程第5章——文件的排序、合并和分割

MySQL（逻辑分层，存储引擎，sql优化，索引优化以及底层实现(B+Tree)）

linux shell文件合并 去重 分割

linux shell文件合并去重分割