Spaces:

ProzisTech
/

key-text-image-finder

Running

App Files Files Community

key-text-image-finder / text_similarity.py

MarioPrzBasto

Update text_similarity.py

506344e verified about 1 month ago

raw

history blame contribute delete

4.93 kB

	import re
	import logging
	from difflib import SequenceMatcher
	from collections import defaultdict

	logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

	def extract_special_characters(text):
	"""Extracts all unique special characters from a list of texts."""
	characters = re.findall(r'[^\w\s]', text) # Finds non-alphanumeric and non-space characters
	return ''.join(characters)

	def clean_text(text, keep=""):
	"""Removes special characters except those specified in 'keep', and converts to lowercase."""
	pattern = rf'[^\w\s{re.escape(keep)}]'
	return re.sub(pattern, '', text.lower())

	def text_similarity(text, key_text):
	"""Calculates the similarity between two texts using SequenceMatcher."""
	return SequenceMatcher(None, text, key_text).ratio()

	def detect_fragments(text, key_texts, threshold=0.7):
	"""Checks if a text contains fragments of key texts."""
	for key_text in key_texts:
	characters_to_not_clean = extract_special_characters(key_text)
	words = clean_text(text, characters_to_not_clean).split()

	logging.info(f"Words detected: {words}")

	key_words = key_text.split()

	# If the text is too short, we can't make an effective sliding window
	if len(words) < len(key_words):
	similarity = text_similarity(text, key_text)
	if similarity >= threshold:
	return True, key_text, similarity
	continue

	# Sliding window to compare word sequences
	for i in range(len(words) - len(key_words) + 1):
	fragment = " ".join(words[i:i+len(key_words)])
	similarity = text_similarity(fragment, key_text)
	if similarity >= threshold:
	return True, key_text, similarity
	return False, None, 0

	def analyze_similarity(text_list, key_texts, similarity_threshold=0.7, fragment_threshold=0.7):
	"""
	Analyzes the similarity between a list of texts and key texts.
	Returns a detailed report on the similarities found.
	"""
	results = {
	"similar_texts": [],
	"fragments_detected": [],
	"combined": [],
	"statistics": defaultdict(int)
	}

	processed_texts = set()

	# Check direct similarity
	for i, text in enumerate(text_list):
	if not text.strip():
	continue

	for key_text in key_texts:
	if not key_text.strip():
	continue

	similarity = text_similarity(text, key_text)
	if similarity >= similarity_threshold:
	results["similar_texts"].append({
	"index": i,
	"text": text,
	"key_text": key_text,
	"similarity": similarity
	})
	results["statistics"]["direct_similarity"] += 1
	processed_texts.add(i)

	# Check fragments
	# for i, text in enumerate(text_list):
	# if i in processed_texts or not text.strip():
	# continue

	# has_fragment, key_text, similarity = detect_fragments(text, key_texts, fragment_threshold)
	# if has_fragment:
	# results["fragments_detected"].append({
	# "index": i,
	# "text": text,
	# "key_text": key_text,
	# "similarity": similarity
	# })
	# results["statistics"]["fragments"] += 1
	# processed_texts.add(i)

	# Check texts that can be combined
	for i in range(len(text_list)):
	if i in processed_texts or not text_list[i].strip():
	continue

	for j in range(i+1, len(text_list)):
	if j in processed_texts or not text_list[j].strip():
	continue

	combined_text = text_list[i] + " " + text_list[j]
	for key_text in key_texts:
	if not key_text.strip():
	continue

	similarity = text_similarity(combined_text, key_text)
	if similarity >= similarity_threshold:
	results["combined"].append({
	"indices": [i, j],
	"texts": [text_list[i], text_list[j]],
	"combined_text": combined_text,
	"key_text": key_text,
	"similarity": similarity
	})
	results["statistics"]["combined"] += 1
	processed_texts.add(i)
	processed_texts.add(j)
	break

	# Calculate overall statistics
	valid_texts = sum(1 for text in text_list if text.strip())
	results["statistics"]["total_analyzed"] = valid_texts
	results["statistics"]["total_processed"] = len(processed_texts)

	return results