PuzzleTuning_VPT / PuzzleTuning /dataprocessing /Fraction_sample_data.py

init submit

edcf5ee verified 9 months ago

6.07 kB

	"""
	script ver： Aug 19th 17:40
	将MIL格式数据集的train抽取一定量部分并命名为AAAA_fraction_XX XX为抽取百分比
	"""
	import os
	import random
	import shutil
	import argparse
	from multiprocessing import Pool, cpu_count


	def setup_seed(seed): # setting up the random seed
	import numpy as np
	np.random.seed(seed)
	random.seed(seed)


	def make_and_clear_path(file_pack_path):
	if not os.path.exists(file_pack_path):
	os.makedirs(file_pack_path)


	def sampling(file_dir, target_dir, rate, split_subset_range='ALL', CLS=False):
	"""
	file_dir: input dataset path
	target_dir: output dataset path
	rate: fraction rate
	split_subset_range:'train' to sample the training only; 'ALL' to sample the training, validation and test sets
	CLS: type of dataset format, True for imagefolder, False for mask+imagefolder format
	"""
	print('Dataset at', file_dir)
	split_names = os.listdir(file_dir)
	for split_name in split_names:

	if split_subset_range == 'ALL':
	file_dir_train = os.path.join(file_dir, split_name)
	file_dir_data = os.path.join(file_dir_train, 'data')
	file_dir_mask = os.path.join(file_dir_train, 'mask')
	target_dir_train = os.path.join(target_dir, split_name)
	target_dir_data = os.path.join(target_dir_train, 'data')
	target_dir_mask = os.path.join(target_dir_train, 'mask')

	for type in os.listdir(file_dir_data):

	make_and_clear_path(os.path.join(target_dir_data, type))
	if not CLS:
	make_and_clear_path(os.path.join(target_dir_mask, type))
	path_dir = os.listdir(os.path.join(file_dir_data, type)) # 取图片的原始路径
	file_number = len(path_dir)
	rate1 = rate # 自定义抽取的比例（百分制）
	pick_number = int(file_number * rate1 / 100) # 按照rate比例从文件夹中取一定数量的文件
	sample1 = random.sample(path_dir, pick_number)
	for name in sample1:
	shutil.copyfile(os.path.join(os.path.join(file_dir_data, type), name),
	os.path.join(os.path.join(target_dir_data, type), name))
	if not CLS:
	shutil.copyfile(os.path.join(os.path.join(file_dir_mask, type), name),
	os.path.join(os.path.join(target_dir_mask, type), name))

	elif split_subset_range == 'train':
	if split_name == 'train':
	file_dir_train = os.path.join(file_dir, split_name)
	file_dir_data = os.path.join(file_dir_train, 'data')
	file_dir_mask = os.path.join(file_dir_train, 'mask')
	target_dir_train = os.path.join(target_dir, split_name)
	target_dir_data = os.path.join(target_dir_train, 'data')
	target_dir_mask = os.path.join(target_dir_train, 'mask')

	for type in os.listdir(file_dir_data):

	make_and_clear_path(os.path.join(target_dir_data, type))
	if not CLS:
	make_and_clear_path(os.path.join(target_dir_mask, type))
	path_dir = os.listdir(os.path.join(file_dir_data, type)) # 取图片的原始路径
	file_number = len(path_dir)
	rate1 = rate # 自定义抽取的比例（百分制）
	pick_number = int(file_number * rate1 / 100) # 按照rate比例从文件夹中取一定数量的文件
	sample1 = random.sample(path_dir, pick_number)
	for name in sample1:
	shutil.copyfile(os.path.join(os.path.join(file_dir_data, type), name),
	os.path.join(os.path.join(target_dir_data, type), name))
	if not CLS:
	shutil.copyfile(os.path.join(os.path.join(file_dir_mask, type), name),
	os.path.join(os.path.join(target_dir_mask, type), name))
	else:
	shutil.copytree(os.path.join(file_dir, split_name), os.path.join(target_dir, split_name))
	else:
	print('not a valid split_list idea')
	raise

	print(split_name, 'has been processed')

	return


	def main(args):
	'''
	class_dir = '/Users/munros/Desktop/ROSE_MIL'
	output = r'/Users/munros/Desktop/ROSE/MIL'
	rates = [10, 20, 30, 40, 50, 60, 70, 80, 90]
	for rate in rates:

	file_dir = class_dir
	target_dir = os.path.join(output, 'Rose_fraction_' + str(int(rate/10)) + '_MIL')

	sampling(file_dir, target_dir, rate, split_list='train', CLS=False)
	'''
	Dataset_name = os.path.split(args.root)[-1].split('_')[0]
	target_dir = os.path.join(args.save_root, Dataset_name + '_fraction_' + str(int(args.rate / 10)) + '_MIL')

	sampling(args.root, target_dir, args.rate, split_subset_range=args.split_subset_range, CLS=args.CLS)


	def get_args_parser():
	parser = argparse.ArgumentParser(description='data_sampling')
	parser.add_argument('--root', default='/root/autodl-tmp/datasets/ROSE_MIL', type=str,
	help='the data root, not including the final list')
	parser.add_argument('--save_root', default='/root/autodl-tmp/datasets', type=str,
	help='the data root, not including the final list')
	parser.add_argument('--rate', default=10, type=int,
	help='the rate of sampling')
	parser.add_argument('--split_subset_range', default='train', type=str,
	help='the subset which will be sampled: ALL or train')
	parser.add_argument('--CLS', default=False, type=bool,
	help='the type of dataset: CLS or MIL')

	return parser


	if __name__ == '__main__':
	# setting up the random seed
	setup_seed(42)

	parser = get_args_parser()
	args = parser.parse_args()
	main(args)