Spaces:

chen196473
/

amazon-multimodal-product-assistant

Build error

App Files Files Community

Wisdom Chen commited on Dec 31, 2024

Commit

7aab80c

unverified ·

1 Parent(s): 996fcd1

Update README.md

Browse files

Files changed (1) hide show

README.md +10 -10

README.md CHANGED Viewed

@@ -11,11 +11,11 @@ pinned: false
 # Amazon E-commerce Visual Assistant
-A multimodal AI assistant leveraging the Amazon Product Dataset 2020 to provide comprehensive product search and recommendations through natural language and image-based interactions[1].
 ## Project Overview
-This conversational AI system combines advanced language and vision models to enhance e-commerce customer support, enabling accurate, context-aware responses to product-related queries[1].
 ## Project Structure
@@ -48,13 +48,13 @@ streamlit run amazon_app.py
 - Standardized text fields and normalized numeric attributes
 - Enhanced metadata indices for categories, price ranges, keywords, brands
 - Validated image quality and managed duplicates
-- Structured data storage in Parquet format[1]
 ### Model Components
 - **Vision-Language Integration**: FashionCLIP for multimodal embedding generation
 - **Vector Search**: FAISS with hybrid retrieval combining embedding similarity and metadata filtering
 - **Language Model**: Mistral-7B with 4-bit quantization
-- **RAG Framework**: Context-enhanced response generation[1]
 ### Performance Metrics
@@ -63,7 +63,7 @@ streamlit run amazon_app.py
 - Recall@1: 0.6385
 - Recall@10: 0.9008
 - Precision@1: 0.6385
-- NDCG@10: 0.7725[1]
 ## Implementation Details
@@ -72,14 +72,14 @@ streamlit run amazon_app.py
 - Product comparisons and recommendations
 - Visual product recognition
 - Detailed product information retrieval
-- Price analysis and comparison[1]
 ### Technologies Used
 - FashionCLIP for visual understanding
 - Mistral-7B Language Model (4-bit quantized)
 - FAISS for similarity search
 - Google Vertex AI for vector storage
-- Streamlit for user interface[1]
 ## Challenges & Solutions
@@ -87,16 +87,16 @@ streamlit run amazon_app.py
 - Image processing with varying quality
 - GPU memory optimization
 - Efficient embedding storage
-- Query response accuracy[1]
 ### Implemented Solutions
 - Robust image validation pipeline
 - 4-bit model quantization
 - Optimized batch processing
-- Enhanced metadata enrichment[1]
 ## Future Directions
 - [ ] Fine-Tune FashionClip embedding model based on the specific domain data
 - [ ] Fine-Tune large language model to improve its generalization capabilities
-- [ ] Develop feedback loops for continuous improvement

 # Amazon E-commerce Visual Assistant
+A multimodal AI assistant leveraging the Amazon Product Dataset 2020 to provide comprehensive product search and recommendations through natural language and image-based interactions.
 ## Project Overview
+This conversational AI system combines advanced language and vision models to enhance e-commerce customer support, enabling accurate, context-aware responses to product-related queries.
 ## Project Structure
 - Standardized text fields and normalized numeric attributes
 - Enhanced metadata indices for categories, price ranges, keywords, brands
 - Validated image quality and managed duplicates
+- Structured data storage in Parquet format
 ### Model Components
 - **Vision-Language Integration**: FashionCLIP for multimodal embedding generation
 - **Vector Search**: FAISS with hybrid retrieval combining embedding similarity and metadata filtering
 - **Language Model**: Mistral-7B with 4-bit quantization
+- **RAG Framework**: Context-enhanced response generation
 ### Performance Metrics
 - Recall@1: 0.6385
 - Recall@10: 0.9008
 - Precision@1: 0.6385
+- NDCG@10: 0.7725
 ## Implementation Details
 - Product comparisons and recommendations
 - Visual product recognition
 - Detailed product information retrieval
+- Price analysis and comparison
 ### Technologies Used
 - FashionCLIP for visual understanding
 - Mistral-7B Language Model (4-bit quantized)
 - FAISS for similarity search
 - Google Vertex AI for vector storage
+- Streamlit for user interface
 ## Challenges & Solutions
 - Image processing with varying quality
 - GPU memory optimization
 - Efficient embedding storage
+- Query response accuracy
 ### Implemented Solutions
 - Robust image validation pipeline
 - 4-bit model quantization
 - Optimized batch processing
+- Enhanced metadata enrichment
 ## Future Directions
 - [ ] Fine-Tune FashionClip embedding model based on the specific domain data
 - [ ] Fine-Tune large language model to improve its generalization capabilities
+- [ ] Develop feedback loops for continuous improvement