Spaces:

samyak152002
/

texmetrics-regex-checks-gradio-1

Running

samyak152002 commited on May 29

Commit

54a4d88

verified ·

1 Parent(s): f5f575c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,6 +19,10 @@ import gradio as gr
 # Set JAVA_HOME environment variable (from target script)
 os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
 # --- Functions for PDF to Markdown to Plain Text ---
 def convert_markdown_to_plain_text(markdown_text: str) -> str:
@@ -175,6 +179,7 @@ def check_structure(plain_text: str) -> Dict[str, bool]:
         "abstract_structure": "structured abstract" in text_lower
     }
 def check_language_issues_and_regex(markdown_text_from_pdf: str) -> Dict[str, Any]:
     """
     Performs LanguageTool and specific regex checks on text derived from PDF's Markdown.
@@ -230,7 +235,9 @@ def check_language_issues_and_regex(markdown_text_from_pdf: str) -> Dict[str, An
     processed_issues: List[Dict[str, Any]] = []
     try:
         tool = language_tool_python.LanguageTool('en-US')
         raw_lt_matches = tool.check(text_for_analysis)
         # Define a set of rule IDs to ignore
@@ -250,7 +257,7 @@ def check_language_issues_and_regex(markdown_text_from_pdf: str) -> Dict[str, An
                 continue
             lt_issues_in_range +=1
-            context_str = text_for_analysis[match.offset : match.offset + match.errorLength]
             processed_issues.append({
                 '_internal_id': f"lt_{idx}",
                 'ruleId': match.ruleId,

 # Set JAVA_HOME environment variable (from target script)
 os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
+global_constants = {
+    "CONTEXT_LENGTH" : 3
+}
 # --- Functions for PDF to Markdown to Plain Text ---
 def convert_markdown_to_plain_text(markdown_text: str) -> str:
         "abstract_structure": "structured abstract" in text_lower
     }
 def check_language_issues_and_regex(markdown_text_from_pdf: str) -> Dict[str, Any]:
     """
     Performs LanguageTool and specific regex checks on text derived from PDF's Markdown.
     processed_issues: List[Dict[str, Any]] = []
     try:
         tool = language_tool_python.LanguageTool('en-US')
+        print(text_for_analysis)
         raw_lt_matches = tool.check(text_for_analysis)
         # Define a set of rule IDs to ignore
                 continue
             lt_issues_in_range +=1
+            context_str = text_for_analysis[match.offset - global_constants["CONTEXT_LENGTH"] : match.offset + match.errorLength + global_constants["CONTEXT_LENGTH"]]
             processed_issues.append({
                 '_internal_id': f"lt_{idx}",
                 'ruleId': match.ruleId,