Spaces:

Hemasagar
/

Pdf-to-csv-audio-to-text

Running

Hemasagar commited on May 30, 2024

Commit

70111e8

verified ·

1 Parent(s): a4cc4d0

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -48,38 +48,38 @@ def create_docs(user_pdf_list):
-    # for filename in user_pdf_list:
-    # print(filename)
-    raw_data=get_pdf_text(user_pdf_list)
-    print("pdf_Data",raw_data)
-    # print("extracted raw data")
-    llm_extracted_data=extracted_data(raw_data)
-    print("llm_extracted_data",llm_extracted_data)
-    #print(llm_extracted_data)
-    #print("llm extracted data")
-    #Adding items to our list - Adding data & its metadata
-    pattern = r'{(.+)}'
-    match = re.search(pattern, llm_extracted_data, re.DOTALL)
-    if match:
-        extracted_text = match.group(1)
-        # Converting the extracted text to a dictionary
-        data_dict = eval('{' + extracted_text + '}')
-        print(data_dict)
-    else:
-        print("No match found.")
-        # Initialize data_dict
-        data_dict = {}
-        # df=df.append([data_dict], ignore_index=True)
-        print("********************DONE***************")
-        # df=df.append(save_to_dataframe(llm_extracted_data), ignore_index=True)
     llm_extracted_data
     return llm_extracted_data

+    for filename in user_pdf_list:
+        # print(filename)
+        raw_data=get_pdf_text(filename)
+        print("pdf_Data",raw_data)
+        # print("extracted raw data")
+        llm_extracted_data=extracted_data(raw_data)
+        print("llm_extracted_data",llm_extracted_data)
+        #print(llm_extracted_data)
+        #print("llm extracted data")
+        #Adding items to our list - Adding data & its metadata
+        pattern = r'{(.+)}'
+        match = re.search(pattern, llm_extracted_data, re.DOTALL)
+        if match:
+            extracted_text = match.group(1)
+            # Converting the extracted text to a dictionary
+            data_dict = eval('{' + extracted_text + '}')
+            print(data_dict)
+        else:
+            print("No match found.")
+            # Initialize data_dict
+            data_dict = {}
+            df=df._append([data_dict], ignore_index=True)
+            print("********************DONE***************")
+            # df=df.append(save_to_dataframe(llm_extracted_data), ignore_index=True)
     llm_extracted_data
     return llm_extracted_data