car_damage_detection / utils /organize_complete_datasets.py

Initial commit for Hugging Face Space deployment

f01c86d 3 months ago

8.15 kB

	import os
	import shutil
	import json
	from collections import defaultdict
	import random
	from tqdm import tqdm
	from PIL import Image

	def convert_coco_to_yolo(coco_json_path, images_dir, output_dir, class_map, split='train'):
	"""Convert COCO format annotations to YOLO format"""
	if not os.path.exists(coco_json_path):
	print(f"Warning: JSON file not found: {coco_json_path}")
	return set()

	if not os.path.exists(images_dir):
	print(f"Warning: Images directory not found: {images_dir}")
	return set()

	print(f"\nProcessing {split} split...")

	# Create output directories
	labels_dir = os.path.join(output_dir, 'labels', split)
	images_dir_out = os.path.join(output_dir, 'images', split)
	os.makedirs(labels_dir, exist_ok=True)
	os.makedirs(images_dir_out, exist_ok=True)

	# Load COCO annotations
	try:
	with open(coco_json_path, 'r') as f:
	coco = json.load(f)
	except json.JSONDecodeError:
	print(f"Error: Invalid JSON file: {coco_json_path}")
	return set()

	# Create id to filename mapping
	id_to_filename = {img['id']: img['file_name'] for img in coco['images']}

	# Group annotations by image
	img_to_anns = defaultdict(list)
	for ann in coco['annotations']:
	img_to_anns[ann['image_id']].append(ann)

	# Process each image
	processed_images = set()
	for img_id, anns in tqdm(img_to_anns.items(), desc=f"Converting {split} set"):
	img_file = id_to_filename[img_id]
	img_path = os.path.join(images_dir, img_file)

	if not os.path.exists(img_path):
	print(f"Warning: Image {img_path} not found, skipping...")
	continue

	try:
	# Copy image
	shutil.copy2(img_path, os.path.join(images_dir_out, img_file))

	# Get image dimensions
	with Image.open(img_path) as im:
	w, h = im.size

	# Convert annotations
	label_lines = []
	for ann in anns:
	cat_id = ann['category_id']
	if cat_id not in class_map:
	print(f"Warning: Unknown category ID {cat_id} in {img_file}")
	continue
	yolo_cls = class_map[cat_id]

	# Convert segmentation points
	for seg in ann['segmentation']:
	coords = [str(x/w) if i%2==0 else str(x/h) for i,x in enumerate(seg)]
	label_lines.append(f"{yolo_cls} {' '.join(coords)}")

	# Write label file
	label_file = os.path.join(labels_dir, os.path.splitext(img_file)[0] + '.txt')
	with open(label_file, 'w') as f:
	f.write('\n'.join(label_lines))

	processed_images.add(img_id)

	except (IOError, OSError) as e:
	print(f"Error processing {img_file}: {str(e)}")
	continue

	return processed_images

	def create_balanced_dataset(source_json, images_dir, output_dir, class_map, min_samples=50, split='train'):
	"""Create balanced dataset by sampling equal number of images per class"""
	print(f"\nCreating balanced dataset for {split} split...")

	# Create output directories
	labels_dir = os.path.join(output_dir, 'labels', split)
	images_dir_out = os.path.join(output_dir, 'images', split)
	os.makedirs(labels_dir, exist_ok=True)
	os.makedirs(images_dir_out, exist_ok=True)

	# Load COCO annotations
	with open(source_json, 'r') as f:
	coco = json.load(f)

	# Group images by parts they contain
	images_by_part = defaultdict(set)
	image_to_anns = defaultdict(list)

	for ann in coco['annotations']:
	img_id = ann['image_id']
	cat_id = ann['category_id']
	images_by_part[cat_id].add(img_id)
	image_to_anns[img_id].append(ann)

	# Sample images for balanced dataset
	selected_images = set()
	for part_images in images_by_part.values():
	sample_size = min(min_samples, len(part_images))
	selected_images.update(random.sample(list(part_images), sample_size))

	# Convert selected images to YOLO format
	id_to_filename = {img['id']: img['file_name'] for img in coco['images']}

	print(f"Processing {len(selected_images)} images for balanced {split} set...")
	for img_id in tqdm(selected_images):
	img_file = id_to_filename[img_id]
	img_path = os.path.join(images_dir, img_file)

	if not os.path.exists(img_path):
	print(f"Warning: Image {img_path} not found, skipping...")
	continue

	# Copy image
	shutil.copy2(img_path, os.path.join(images_dir_out, img_file))

	# Get image dimensions
	with Image.open(img_path) as im:
	w, h = im.size

	# Convert annotations
	label_lines = []
	for ann in image_to_anns[img_id]:
	cat_id = ann['category_id']
	yolo_cls = class_map[cat_id]

	# Convert segmentation points
	for seg in ann['segmentation']:
	coords = [str(x/w) if i%2==0 else str(x/h) for i,x in enumerate(seg)]
	label_lines.append(f"{yolo_cls} {' '.join(coords)}")

	# Write label file
	label_file = os.path.join(labels_dir, os.path.splitext(img_file)[0] + '.txt')
	with open(label_file, 'w') as f:
	f.write('\n'.join(label_lines))

	def main():
	base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
	source_dir = os.path.join(base_dir, 'damage_detection_dataset')

	if not os.path.exists(source_dir):
	print(f"Error: Source directory not found: {source_dir}")
	return

	# Set up output directories
	car_damage_dir = os.path.join(base_dir, 'data', 'data_yolo_for_training', 'car_damage_dataset')
	car_parts_dir = os.path.join(base_dir, 'data', 'data_yolo_for_training', 'car_parts_damage_dataset')

	# Class mappings
	damage_class_map = {1: 0} # Assuming damage is class 1 in COCO format
	parts_class_map = {1: 0, 2: 1, 3: 2, 4: 3, 5: 4} # headlamp, front_bumper, hood, door, rear_bumper

	# Process car damage dataset (full dataset)
	print("\nProcessing Car Damage Dataset...")
	for split in ['train', 'val', 'test']:
	json_name = 'COCO_train_annos.json' if split == 'train' else 'COCO_val_annos.json'
	json_path = os.path.join(source_dir, split, json_name)
	images_dir = os.path.join(source_dir, split)

	if os.path.exists(json_path):
	convert_coco_to_yolo(
	json_path,
	images_dir,
	car_damage_dir,
	damage_class_map,
	split
	)
	else:
	print(f"Warning: JSON file not found for {split} split: {json_path}")

	# Process car parts dataset (balanced training, original val/test)
	print("\nProcessing Car Parts Dataset...")
	# Training set - balanced
	train_json = os.path.join(source_dir, 'train', 'COCO_mul_train_annos.json')
	if os.path.exists(train_json):
	create_balanced_dataset(
	train_json,
	os.path.join(source_dir, 'train'),
	car_parts_dir,
	parts_class_map,
	min_samples=50,
	split='train'
	)
	else:
	print(f"Warning: Training JSON file not found: {train_json}")

	# Validation and test sets - original
	for split in ['val', 'test']:
	json_path = os.path.join(source_dir, split, 'COCO_mul_val_annos.json')
	images_dir = os.path.join(source_dir, split)

	if os.path.exists(json_path):
	convert_coco_to_yolo(
	json_path,
	images_dir,
	car_parts_dir,
	parts_class_map,
	split
	)
	else:
	print(f"Warning: JSON file not found for {split} split: {json_path}")

	if __name__ == '__main__':
	main()