Spaces:

NaimaAqeel
/

document-similarity-checker

Running

App Files Files Community

NaimaAqeel commited on 1 day ago

Commit

714e663

verified ·

1 Parent(s): c101099

Update app.py

Browse files

Files changed (1) hide show

app.py +106 -42

app.py CHANGED Viewed

@@ -75,7 +75,7 @@ def calculate_cosine_similarity(doc1: str, doc2: str) -> Tuple[float, List[Tuple
     sentences2 = preprocess_text(doc2)
     if not sentences1 or not sentences2:
-        return 0.0, []
     # Get embeddings for all sentences
     embeddings1 = model.encode(sentences1, convert_to_tensor=True)
@@ -83,6 +83,7 @@ def calculate_cosine_similarity(doc1: str, doc2: str) -> Tuple[float, List[Tuple
     # Calculate cosine similarities between all sentence pairs
     cosine_similarities = util.pytorch_cos_sim(embeddings1, embeddings2)
     # Find the most similar sentences
     similar_pairs = []
@@ -93,20 +94,20 @@ def calculate_cosine_similarity(doc1: str, doc2: str) -> Tuple[float, List[Tuple
         best_match_idx = -1
         for j in range(len(sentences2)):
-            if cosine_similarities[i][j] > max_similarity:
-                max_similarity = cosine_similarities[i][j]
                 best_match_idx = j
         if max_similarity > threshold and best_match_idx != -1:
-            similar_pairs.append((sentences1[i], sentences2[best_match_idx], max_similarity.item()))
     # Calculate overall similarity
-    max_similarities1 = cosine_similarities.max(dim=1)[0]
-    max_similarities2 = cosine_similarities.max(dim=0)[0]
-    mean_similarity = (max_similarities1.mean() + max_similarities2.mean()) / 2.0
-    overall_similarity = mean_similarity.item()
-    return overall_similarity, similar_pairs, cosine_similarities.cpu().numpy()
 def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
     """Create multiple visualizations for similarity analysis"""
@@ -115,24 +116,34 @@ def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
     visualizations = []
-    # 1. Improved Heatmap
-    plt.figure(figsize=(12, 10))
     # Create a mask for values below threshold to make the heatmap clearer
-    mask = similarity_matrix < 0.5
-    # Use a diverging color palette for better contrast
     ax = sns.heatmap(similarity_matrix,
                     mask=mask,
-                    cmap='RdYlBu_r',
-                    center=0.7,
                     xticklabels=False,
                     yticklabels=False,
                     cbar_kws={'label': 'Similarity Score', 'shrink': 0.8})
-    plt.title('Document Similarity Heatmap\n(Brighter colors = Higher similarity)', fontsize=14, pad=20)
-    plt.xlabel('Document 2 Sentences', fontsize=12)
-    plt.ylabel('Document 1 Sentences', fontsize=12)
     buf = BytesIO()
     plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
@@ -142,18 +153,34 @@ def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
     visualizations.append(heatmap_img)
     # 2. Similarity Distribution Chart
-    plt.figure(figsize=(10, 6))
     # Flatten the similarity matrix and filter out low similarities
     flat_similarities = similarity_matrix.flatten()
     flat_similarities = flat_similarities[flat_similarities > 0.3]  # Only show meaningful similarities
-    plt.hist(flat_similarities, bins=20, alpha=0.7, color='skyblue', edgecolor='black')
-    plt.axvline(x=0.7, color='red', linestyle='--', label='Similarity Threshold (70%)')
-    plt.xlabel('Similarity Score')
-    plt.ylabel('Frequency')
-    plt.title('Distribution of Sentence Similarities')
-    plt.legend()
     plt.grid(True, alpha=0.3)
     buf = BytesIO()
@@ -164,10 +191,10 @@ def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
     visualizations.append(dist_img)
     # 3. Top Similarity Pairs Bar Chart
-    plt.figure(figsize=(12, 8))
     # Get top similarity scores and their positions
-    top_n = min(10, len(sentences1) * len(sentences2))
     if top_n > 0:
         # Flatten and get indices of top values
         flat_indices = np.argsort(similarity_matrix.flatten())[-top_n:]
@@ -176,15 +203,36 @@ def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
         # Convert flat indices to 2D indices
         rows, cols = np.unravel_index(flat_indices, similarity_matrix.shape)
-        # Create labels
-        labels = [f"Sent {r+1} ↔ Sent {c+1}" for r, c in zip(rows, cols)]
-        plt.barh(range(len(top_scores)), top_scores, color='lightcoral')
-        plt.yticks(range(len(top_scores)), labels)
-        plt.xlabel('Similarity Score')
-        plt.title('Top 10 Most Similar Sentence Pairs')
         plt.grid(True, alpha=0.3, axis='x')
         buf = BytesIO()
         plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
         plt.close()
@@ -199,7 +247,7 @@ def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
 def create_similarity_summary(overall_similarity, similar_pairs):
     """Create a text summary of the similarity analysis"""
     summary = f"## 📊 Similarity Summary\n\n"
-    summary += f"**Overall Similarity Score:** {overall_similarity:.2%}\n\n"
     if similar_pairs:
         summary += f"**Number of Similar Sentence Pairs:** {len(similar_pairs)}\n\n"
@@ -207,10 +255,12 @@ def create_similarity_summary(overall_similarity, similar_pairs):
         # Group by similarity ranges
         high_sim = len([p for p in similar_pairs if p[2] >= 0.9])
         med_sim = len([p for p in similar_pairs if 0.7 <= p[2] < 0.9])
         summary += "**Similarity Breakdown:**\n"
-        summary += f"- High Similarity (≥90%): {high_sim} pairs\n"
-        summary += f"- Medium Similarity (70-89%): {med_sim} pairs\n\n"
         # Most common concepts
         concepts = {
@@ -240,7 +290,7 @@ def create_similarity_summary(overall_similarity, similar_pairs):
             if count > 0:
                 summary += f"- {concept.capitalize()}: {count} pairs\n"
     else:
-        summary += "No significant similarities found above the 70% threshold.\n"
     return summary
@@ -310,7 +360,7 @@ def similarity(file1, file2):
             if pairs:
                 output_html += f"<h5>🔍 {concept.capitalize()}:</h5>"
                 for i, (sent1, sent2, score) in enumerate(pairs):
-                    color = "#4CAF50" if score >= 0.9 else "#FF9800" if score >= 0.7 else "#F44336"
                     output_html += f"""
                     <div style="background-color: #f9f9f9; padding: 12px; margin: 8px; border-radius: 8px; border-left: 5px solid {color};">
                         <p><b>📄 Document 1:</b> {sent1}</p>
@@ -320,7 +370,7 @@ def similarity(file1, file2):
                     """
     else:
         output_html += "<div style='background-color: #fff3cd; padding: 15px; border-radius: 8px; border-left: 5px solid #ffc107;'>"
-        output_html += "<p>⚠️ No significant similarities found above the threshold (70%).</p>"
         output_html += "</div>"
     # Generate visualizations
@@ -357,14 +407,27 @@ with gr.Blocks(title="Document Similarity Checker", theme=gr.themes.Soft()) as d
     with gr.Row():
         with gr.Column():
-            gr.Markdown("### 📈 Similarity Heatmap")
             heatmap_display = gr.HTML()
         with gr.Column():
-            gr.Markdown("### 📊 Similarity Distribution")
             dist_display = gr.HTML()
     with gr.Row():
-        gr.Markdown("### 🔝 Top Similar Pairs")
         top_pairs_display = gr.HTML()
     # Define the processing function
@@ -395,4 +458,5 @@ with gr.Blocks(title="Document Similarity Checker", theme=gr.themes.Soft()) as d
 # Launch the application
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)

     sentences2 = preprocess_text(doc2)
     if not sentences1 or not sentences2:
+        return 0.0, [], np.array([])
     # Get embeddings for all sentences
     embeddings1 = model.encode(sentences1, convert_to_tensor=True)
     # Calculate cosine similarities between all sentence pairs
     cosine_similarities = util.pytorch_cos_sim(embeddings1, embeddings2)
+    similarity_matrix = cosine_similarities.cpu().numpy()
     # Find the most similar sentences
     similar_pairs = []
         best_match_idx = -1
         for j in range(len(sentences2)):
+            if similarity_matrix[i][j] > max_similarity:
+                max_similarity = similarity_matrix[i][j]
                 best_match_idx = j
         if max_similarity > threshold and best_match_idx != -1:
+            similar_pairs.append((sentences1[i], sentences2[best_match_idx], max_similarity))
     # Calculate overall similarity
+    max_similarities1 = np.max(similarity_matrix, axis=1)
+    max_similarities2 = np.max(similarity_matrix, axis=0)
+    mean_similarity = (np.mean(max_similarities1) + np.mean(max_similarities2)) / 2.0
+    overall_similarity = mean_similarity
+    return overall_similarity, similar_pairs, similarity_matrix
 def create_similarity_visualizations(sentences1, sentences2, similarity_matrix):
     """Create multiple visualizations for similarity analysis"""
     visualizations = []
+    # 1. Improved Heatmap with clear explanation
+    plt.figure(figsize=(14, 10))
     # Create a mask for values below threshold to make the heatmap clearer
+    mask = similarity_matrix < 0.3
+    # Use a clear color palette
     ax = sns.heatmap(similarity_matrix,
                     mask=mask,
+                    cmap='YlOrRd',
+                    vmin=0.3,
+                    vmax=1.0,
                     xticklabels=False,
                     yticklabels=False,
                     cbar_kws={'label': 'Similarity Score', 'shrink': 0.8})
+    plt.title('Document Similarity Heatmap\n\n🔴 Red = Very Similar  🟡 Yellow = Somewhat Similar  ⚪ White = Not Similar',
+              fontsize=16, pad=20)
+    plt.xlabel('Document 2 Sentences', fontsize=14)
+    plt.ylabel('Document 1 Sentences', fontsize=14)
+    # Add explanation text
+    explanation_text = (
+        "This heatmap shows how similar each sentence in Document 1 is to each sentence in Document 2.\n"
+        "Bright red areas indicate very similar content, yellow areas show some similarity, \n"
+        "and white areas indicate little to no similarity."
+    )
+    plt.figtext(0.5, 0.01, explanation_text, ha="center", fontsize=12, bbox={"facecolor":"orange", "alpha":0.2, "pad":5})
     buf = BytesIO()
     plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
     visualizations.append(heatmap_img)
     # 2. Similarity Distribution Chart
+    plt.figure(figsize=(12, 8))
     # Flatten the similarity matrix and filter out low similarities
     flat_similarities = similarity_matrix.flatten()
     flat_similarities = flat_similarities[flat_similarities > 0.3]  # Only show meaningful similarities
+    # Create bins with labels
+    bins = [0.3, 0.5, 0.7, 0.9, 1.0]
+    bin_labels = ['Low (30-50%)', 'Medium (50-70%)', 'High (70-90%)', 'Very High (90-100%)']
+    # Create histogram
+    counts, bin_edges = np.histogram(flat_similarities, bins=bins)
+    # Create bar chart with colors
+    colors = ['#ff9999', '#ffcc99', '#c2e699', '#66b3ff']
+    bars = plt.bar(range(len(counts)), counts, color=colors, edgecolor='black')
+    # Add value labels on bars
+    for i, (count, bar) in enumerate(zip(counts, bars)):
+        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
+                str(count), ha='center', va='bottom', fontsize=12, fontweight='bold')
+    plt.axvline(x=1.5, color='red', linestyle='--', linewidth=2, label='Similarity Threshold (70%)')
+    plt.xlabel('Similarity Level', fontsize=14)
+    plt.ylabel('Number of Sentence Pairs', fontsize=14)
+    plt.title('Distribution of Sentence Similarities', fontsize=16)
+    plt.xticks(range(len(bin_labels)), bin_labels, rotation=45, ha='right')
+    plt.legend(fontsize=12)
     plt.grid(True, alpha=0.3)
     buf = BytesIO()
     visualizations.append(dist_img)
     # 3. Top Similarity Pairs Bar Chart
+    plt.figure(figsize=(14, 10))
     # Get top similarity scores and their positions
+    top_n = min(8, len(sentences1) * len(sentences2))
     if top_n > 0:
         # Flatten and get indices of top values
         flat_indices = np.argsort(similarity_matrix.flatten())[-top_n:]
         # Convert flat indices to 2D indices
         rows, cols = np.unravel_index(flat_indices, similarity_matrix.shape)
+        # Create shortened labels for readability
+        labels = []
+        for r, c in zip(rows, cols):
+            sent1_short = sentences1[r][:50] + "..." if len(sentences1[r]) > 50 else sentences1[r]
+            sent2_short = sentences2[c][:50] + "..." if len(sentences2[c]) > 50 else sentences2[c]
+            labels.append(f"Pair {r+1}-{c+1}")
+        colors = ['#ff6666' if score >= 0.9 else '#ffcc66' if score >= 0.7 else '#66b3ff' for score in top_scores]
+        bars = plt.barh(range(len(top_scores)), top_scores, color=colors, edgecolor='black')
+        # Add value labels
+        for i, (score, bar) in enumerate(zip(top_scores, bars)):
+            plt.text(bar.get_width() + 0.01, bar.get_y() + bar.get_height()/2,
+                    f'{score:.2%}', ha='left', va='center', fontsize=11, fontweight='bold')
+        plt.yticks(range(len(top_scores)), labels, fontsize=11)
+        plt.xlabel('Similarity Score', fontsize=14)
+        plt.title('Top 8 Most Similar Sentence Pairs', fontsize=16)
+        plt.xlim(0, 1.1)
         plt.grid(True, alpha=0.3, axis='x')
+        # Add legend for colors
+        from matplotlib.patches import Patch
+        legend_elements = [
+            Patch(facecolor='#ff6666', label='Very Similar (≥90%)'),
+            Patch(facecolor='#ffcc66', label='Similar (70-89%)'),
+            Patch(facecolor='#66b3ff', label='Somewhat Similar (30-69%)')
+        ]
+        plt.legend(handles=legend_elements, loc='lower right')
         buf = BytesIO()
         plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
         plt.close()
 def create_similarity_summary(overall_similarity, similar_pairs):
     """Create a text summary of the similarity analysis"""
     summary = f"## 📊 Similarity Summary\n\n"
+    summary += f"**Overall Similarity Score:** <span style='color: #4CAF50; font-size: 20px;'>{overall_similarity:.2%}</span>\n\n"
     if similar_pairs:
         summary += f"**Number of Similar Sentence Pairs:** {len(similar_pairs)}\n\n"
         # Group by similarity ranges
         high_sim = len([p for p in similar_pairs if p[2] >= 0.9])
         med_sim = len([p for p in similar_pairs if 0.7 <= p[2] < 0.9])
+        low_sim = len([p for p in similar_pairs if 0.3 <= p[2] < 0.7])
         summary += "**Similarity Breakdown:**\n"
+        summary += f"- 🔴 Very High Similarity (≥90%): {high_sim} pairs\n"
+        summary += f"- 🟡 High Similarity (70-89%): {med_sim} pairs\n"
+        summary += f"- 🔵 Some Similarity (30-69%): {low_sim} pairs\n\n"
         # Most common concepts
         concepts = {
             if count > 0:
                 summary += f"- {concept.capitalize()}: {count} pairs\n"
     else:
+        summary += "No significant similarities found above the 30% threshold.\n"
     return summary
             if pairs:
                 output_html += f"<h5>🔍 {concept.capitalize()}:</h5>"
                 for i, (sent1, sent2, score) in enumerate(pairs):
+                    color = "#ff6666" if score >= 0.9 else "#ffcc66" if score >= 0.7 else "#66b3ff"
                     output_html += f"""
                     <div style="background-color: #f9f9f9; padding: 12px; margin: 8px; border-radius: 8px; border-left: 5px solid {color};">
                         <p><b>📄 Document 1:</b> {sent1}</p>
                     """
     else:
         output_html += "<div style='background-color: #fff3cd; padding: 15px; border-radius: 8px; border-left: 5px solid #ffc107;'>"
+        output_html += "<p>⚠️ No significant similarities found above the threshold (30%).</p>"
         output_html += "</div>"
     # Generate visualizations
     with gr.Row():
         with gr.Column():
+            gr.Markdown("""
+            ### 📈 Similarity Heatmap
+            **Color Guide:**
+            - 🔴 Red = Very Similar (90-100%)
+            - 🟡 Yellow = Somewhat Similar (70-89%)
+            - ⚪ White = Not Similar (0-69%)
+            """)
             heatmap_display = gr.HTML()
         with gr.Column():
+            gr.Markdown("""
+            ### 📊 Similarity Distribution
+            Shows how many sentence pairs fall into each similarity range.
+            The red line indicates the 70% similarity threshold.
+            """)
             dist_display = gr.HTML()
     with gr.Row():
+        gr.Markdown("""
+        ### 🔝 Top Similar Pairs
+        The most similar sentences between your documents, with similarity scores.
+        """)
         top_pairs_display = gr.HTML()
     # Define the processing function
 # Launch the application
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)