Spaces:

hardik27
/

dataextraction

Running

hardik27 commited on Apr 3, 2024

Commit

27a08f1

verified ·

1 Parent(s): a1d7807

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,29 +33,11 @@ def convert_pdf_to_excel(pdf_file):
     whole_data = pd.DataFrame(whole_data)
     whole_data.columns = ["Part No.","Part Color Code","Part Name"]
-    # whole_data.to_csv("Extracted_Data.csv",index=False)
-    # Convert each table into a DataFrame
-    # dfs = []
-    # for table in tables:
-    #     dfs.append(table)
-    # # Concatenate all DataFrames into a single DataFrame
-    # result = pd.concat(dfs)
-    # Convert DataFrame to Excel
-    # excel_file = pdf_file.name.replace('.pdf', '.xlsx')
-    # result.to_excel(excel_file, index=False)
     excel_file = pdf_file.name.replace('.pdf', '.xlsx')
     whole_data.to_excel(excel_file, index=False)
     return excel_file
-    # whole_data.to_csv(excel_file,index=False)
-    # return excel_file
 def main():
     st.title("PDF to Excel Converter")
@@ -84,9 +66,4 @@ def main():
             st.error("Error: Converted Excel file not found")
 if __name__ == "__main__":
-    main()
-# file_name = input("Give Complete file location")
-# file_name = '/home/hardik/Downloads/data extraction/HSCI.2.20231121154327.WG.IFORD001.0492.4348.5M09-01.pdf'
-# pdf_in_file = open(file_name,'rb')

     whole_data = pd.DataFrame(whole_data)
     whole_data.columns = ["Part No.","Part Color Code","Part Name"]
     excel_file = pdf_file.name.replace('.pdf', '.xlsx')
     whole_data.to_excel(excel_file, index=False)
     return excel_file
 def main():
     st.title("PDF to Excel Converter")
             st.error("Error: Converted Excel file not found")
 if __name__ == "__main__":
+    main()