Spaces:

awacke1
/

TorchTransformers-Diffusion-CV-SFT

Running on CPU Upgrade

App Files Files Community

awacke1 commited on 13 days ago

Commit

de31118

verified ·

1 Parent(s): 0540dcf

Update README.md

Browse files

Files changed (1) hide show

README.md +21 -0

README.md CHANGED Viewed

@@ -10,6 +10,27 @@ pinned: false
 license: mit
 short_description: Torch Transformers Diffusion SFT for Computer Vision
 ---
 ## Abstract
 Fuse `torch`, `transformers`, and `diffusers` for SFT-powered NLP and CV! Dual `st.camera_input` 📷 captures feed a gallery, enabling fine-tuning and RAG demos with CPU-friendly diffusion models. Key papers:

 license: mit
 short_description: Torch Transformers Diffusion SFT for Computer Vision
 ---
+## Abstract
+Explore AI vision with `torch`, `transformers`, and `diffusers`! Dual `st.camera_input` 📷 captures feed async OCR (Qwen2-VL, TrOCR), image gen (Stable Diffusion), and line drawings (Torch Space-inspired) on CPU. Key papers:
+- 🌐 **[Streamlit](https://arxiv.org/abs/2308.03892)** - Thiessen et al., 2023: UI.
+- 🔥 **[PyTorch](https://arxiv.org/abs/1912.01703)** - Paszke et al., 2019: Core.
+- 🔍 **[Qwen2-VL](https://arxiv.org/abs/2408.11039)** - Li et al., 2024: Multimodal OCR.
+- 🔍 **[TrOCR](https://arxiv.org/abs/2109.10282)** - Li et al., 2021: Small OCR.
+- 🎨 **[LDM](https://arxiv.org/abs/2112.10752)** - Rombach et al., 2022: Image gen.
+- 👁️ **[OpenCV](https://arxiv.org/abs/2308.11236)** - Bradski, 2000: CV tools.
+Run: `pip install -r requirements.txt`, `streamlit run ${app_file}`. Snap, test, innovate! ${emoji}
+## Usage 🎯
+- 📷 **Camera Snap**: Single or burst capture (auto 10 frames) with gallery.
+- 🔍 **Test OCR**: `Qwen2-VL-OCR-2B` or `TrOCR-Small` extracts text, saved async.
+- 🎨 **Test Image Gen**: `OFA-Sys/small-stable-diffusion-v0` generates images, saved async.
+- ✏️ **Test Line Drawings**: OpenCV line art (Torch Space-inspired), saved async.
 ## Abstract
 Fuse `torch`, `transformers`, and `diffusers` for SFT-powered NLP and CV! Dual `st.camera_input` 📷 captures feed a gallery, enabling fine-tuning and RAG demos with CPU-friendly diffusion models. Key papers: