Spaces:

Proton-Datalabs-dev
/

Smart-Tasker

Sleeping

File size: 390 Bytes

af30a30

# data_ingestion/ingest_data.py
from docx import Document

def read_document(file_path):
    """Reads a Word document and extracts text content from each line."""
    document = Document(file_path)
    text_data = []

    for para in document.paragraphs:
        line = para.text.strip()
        if line:  # Only add non-empty lines
            text_data.append(line)

    return text_data