Spaces:

Bonosa2
/

notes

Sleeping

App Files Files Community

Bonosa2 commited on 29 days ago

Commit

a255cfc

verified ·

1 Parent(s): 741135c

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -0

app.py CHANGED Viewed

@@ -77,6 +77,56 @@ pd.DataFrame({"doc_note": docs}).to_csv("doc_notes.tsv", sep="\t", index=False)
 pd.DataFrame({"soap_note": soaps}).to_csv("ground_truth_soap.tsv", sep="\t", index=False)
 print("✅ Saved doc_notes.tsv & ground_truth_soap.tsv")
 # 3) Blank Gradio UI placeholder
 def noop():
     return "Data generated — check TSV files in the repo."

 pd.DataFrame({"soap_note": soaps}).to_csv("ground_truth_soap.tsv", sep="\t", index=False)
 print("✅ Saved doc_notes.tsv & ground_truth_soap.tsv")
+# Colab/Kaggle/Space Cell: Split, infer on train (70), infer on test (30), and save files
+import os
+import pandas as pd
+from sklearn.model_selection import train_test_split
+# Make outputs directory
+os.makedirs("outputs", exist_ok=True)
+# 1) Load generated notes and ground truths
+docs = pd.read_csv("doc_notes.tsv", sep="\t")            # has column 'doc_note'
+gts  = pd.read_csv("ground_truth_soap.tsv", sep="\t")    # has column 'soap_note'
+full = pd.DataFrame({
+    "doc_note":           docs["doc_note"],
+    "ground_truth_soap":  gts["soap_note"]
+})
+# 2) Split 70% train / 30% test
+train_df, test_df = train_test_split(full, test_size=0.3, random_state=42)
+# 3) Run inference on the 70‑row train split and save inference.tsv
+train_preds = []
+for idx, row in train_df.reset_index(drop=True).iterrows():
+    pred = generate_soap_note(row["doc_note"])
+    train_preds.append(pred)
+inference_df = train_df.reset_index(drop=True).copy()
+inference_df["id"]             = inference_df.index + 1
+inference_df["predicted_soap"] = train_preds
+inference_df = inference_df[["id","ground_truth_soap","predicted_soap"]]
+inference_df.to_csv("outputs/inference.tsv", sep="\t", index=False)
+# 4) Run inference on the 30‑row test split and save eval.csv
+test_preds = []
+for idx, row in test_df.reset_index(drop=True).iterrows():
+    pred = generate_soap_note(row["doc_note"])
+    test_preds.append(pred)
+eval_df = pd.DataFrame({
+    "id":             range(1, len(test_preds) + 1),
+    "predicted_soap": test_preds
+})
+eval_df.to_csv("outputs/eval.csv", index=False)
+print("✅ Saved:")
+print("  outputs/inference.tsv (70 rows: id, ground_truth_soap, predicted_soap)")
+print("  outputs/eval.csv      (30 rows: id, predicted_soap)")
 # 3) Blank Gradio UI placeholder
 def noop():
     return "Data generated — check TSV files in the repo."