Spaces:

CR7CAD
/

Assignment1

Sleeping

App Files Files Community

CR7CAD commited on Mar 8

Commit

4e37056

verified ·

1 Parent(s): 118cd25

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -56

app.py CHANGED Viewed

@@ -2,54 +2,24 @@ import streamlit as st
 from PIL import Image
 import os
 import tempfile
-import subprocess
 import sys
-# Check for required dependencies and install if missing
-def check_and_install_dependencies():
-    required_packages = {
-        "transformers": "transformers",
-        "sentencepiece": "sentencepiece",
-        "gtts": "gTTS"
-    }
-    missing_packages = []
-    for package, pip_name in required_packages.items():
-        try:
-            __import__(package)
-        except ImportError:
-            missing_packages.append((package, pip_name))
-    if missing_packages:
-        st.warning("Missing required dependencies. Please install them before continuing.")
-        for package, pip_name in missing_packages:
-            st.code(f"pip install {pip_name}", language="bash")
-        if st.button("Install Dependencies Automatically"):
-            with st.spinner("Installing dependencies..."):
-                for package, pip_name in missing_packages:
-                    try:
-                        subprocess.check_call([sys.executable, "-m", "pip", "install", pip_name])
-                        st.success(f"Successfully installed {pip_name}")
-                    except Exception as e:
-                        st.error(f"Failed to install {pip_name}: {str(e)}")
-            st.info("Please restart the application after installing dependencies.")
-        return False
-    return True
 # function part
-# img2text
 def img2text(image_path):
     try:
-        # Import here to ensure dependencies are checked first
         from transformers import pipeline
-        # Load the image-to-text model
-        image_to_text_model = pipeline("image-to-text", model="naver-clova-ix/donut-base")
         # Open the image file
         image = Image.open(image_path)
         # Extract text from the image
         result = image_to_text_model(image)
         # Get the generated text
         text = result[0]["generated_text"] if result else "No text detected"
         return text
@@ -69,7 +39,7 @@ def text2audio(story_text):
         from gtts import gTTS
         # Create a temporary file
-        temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix='.wav')
         temp_audio_path = temp_audio.name
         temp_audio.close()
@@ -88,26 +58,58 @@ def text2audio(story_text):
 st.set_page_config(page_title="Your Image to Audio Story",
                    page_icon="🦜")
 st.header("Turn Your Image to Audio Story")
-st.subheader("Using Donut model for text extraction")
-# Check dependencies before proceeding
-dependencies_ok = check_and_install_dependencies()
-if dependencies_ok:
-    uploaded_file = st.file_uploader("Select an Image...", type=['png', 'jpg', 'jpeg', 'gif', 'bmp', 'webp'])
-    if uploaded_file is not None:
-        # Save the uploaded file temporarily
-        bytes_data = uploaded_file.getvalue()
-        image_temp_path = os.path.join(tempfile.gettempdir(), uploaded_file.name)
-        with open(image_temp_path, "wb") as file:
-            file.write(bytes_data)
-        # Display the uploaded image
-        st.image(uploaded_file, caption="Uploaded Image",
-                 use_column_width=True)
-        # Stage 1: Image to Text
-        with st.spinner('Processing img2text...'):
-            extracted_text = img2text(image_temp_path)
-            st.subheader("Extracted Text:")

 from PIL import Image
 import os
 import tempfile
 import sys
 # function part
+# img2text with a model that doesn't require sentencepiece
 def img2text(image_path):
     try:
         from transformers import pipeline
+        # Use the Salesforce model instead of Donut to avoid sentencepiece issues
+        st.info("Using Salesforce/blip-image-captioning-base model for image-to-text")
+        image_to_text_model = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
         # Open the image file
         image = Image.open(image_path)
         # Extract text from the image
         result = image_to_text_model(image)
         # Get the generated text
         text = result[0]["generated_text"] if result else "No text detected"
         return text
         from gtts import gTTS
         # Create a temporary file
+        temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix='.mp3')
         temp_audio_path = temp_audio.name
         temp_audio.close()
 st.set_page_config(page_title="Your Image to Audio Story",
                    page_icon="🦜")
 st.header("Turn Your Image to Audio Story")
+st.subheader("Image to Text to Audio Conversion")
+uploaded_file = st.file_uploader("Select an Image...", type=['png', 'jpg', 'jpeg', 'gif', 'bmp', 'webp'])
+if uploaded_file is not None:
+    # Save the uploaded file temporarily
+    bytes_data = uploaded_file.getvalue()
+    image_temp_path = os.path.join(tempfile.gettempdir(), uploaded_file.name)
+    with open(image_temp_path, "wb") as file:
+        file.write(bytes_data)
+    # Display the uploaded image
+    st.image(uploaded_file, caption="Uploaded Image",
+             use_column_width=True)
+    # Stage 1: Image to Text
+    with st.spinner('Processing img2text...'):
+        extracted_text = img2text(image_temp_path)
+        st.subheader("Extracted Text:")
+        st.write(extracted_text)
+    # Stage 2: Text to Story
+    with st.spinner('Generating a story...'):
+        story = text2story(extracted_text)
+        st.subheader("Generated Story:")
+        st.write(story)
+    # Stage 3: Story to Audio data
+    audio_file_path = None
+    with st.spinner('Generating audio data...'):
+        audio_file_path = text2audio(story)
+    # Remove the temporary image file
+    if os.path.exists(image_temp_path):
+        os.remove(image_temp_path)
+    # Play button
+    if st.button("Play Audio"):
+        if audio_file_path and os.path.exists(audio_file_path):
+            # Play the generated audio
+            with open(audio_file_path, "rb") as audio_file:
+                audio_bytes = audio_file.read()
+            st.audio(audio_bytes, format="audio/mp3")
+            # Clean up the audio file after playing
+            try:
+                os.remove(audio_file_path)
+            except:
+                pass
+        else:
+            st.warning("Audio generation failed. Playing a placeholder audio.")
+            try:
+                st.audio("kids_playing_audio.wav")
+            except FileNotFoundError:
+                st.error("Placeholder audio file not found. Audio playback is unavailable.")