ViSoLex Toolkit
community
AI & ML interests
None defined yet.
Recent Activity
Organization Card
📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing
ViSoLex là một toolkit mạnh mẽ dành cho chuẩn hóa và xử lý văn bản tiếng Việt, được thiết kế tối ưu cho môi trường NLP và dễ dàng cài đặt qua PyPI. Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên Hugging Face Hub.
🚀 Tính năng chính
1. 🔧 Basic Normalizer — Chuẩn hóa văn bản cơ bản
- Case folding: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
- Tone normalization: chuẩn hóa dấu thanh tiếng Việt.
- Basic preprocessing: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.
2. 😀 Emoji Handler — Xử lý emoji
- Detect emojis: phát hiện emoji trong văn bản.
- Split emoji text: tách emoji ra khỏi câu.
- Remove emojis: loại bỏ toàn bộ emoji.
3. 📊 Resource Management — Quản lý dữ liệu
list_datasets()
— Liệt kê datasets có sẵn.load_dataset()
— Tải dataset từ Hugging Face.get_dataset_info()
— Xem thông tin chi tiết dataset.
4. 🧠 Task Models — Mô hình xử lý tác vụ
- SpamReviewDetection — Phát hiện spam.
- HateSpeechDetection — Phát hiện hate speech.
- EmotionRecognition — Nhận diện cảm xúc.
- AspectSentimentAnalysis — Phân tích sentiment theo từng khía cạnh.
5. 🧪 Advanced Usage — Kết hợp & Tùy chỉnh
- Tạo multi-step pipelines cho chuẩn hóa và phân tích.
- Tùy chỉnh từng bước xử lý theo nhu cầu.
6. ✏ Lexical Normalization — Chuẩn hóa văn bản mạng xã hội
detect_nsw()
— Phát hiện từ phi chuẩn (non-standard words).normalize_sentence()
— Chuẩn hóa câu chứa từ phi chuẩn.
📥 Cài đặt
pip install visolex
models
17

visolex/phobert-large-hsd-span
0.4B
•
Updated
•
14

visolex/phobert-absa-restaurant
Text Classification
•
0.1B
•
Updated
•
51

visolex/phobert-absa-hotel
Text Classification
•
0.1B
•
Updated
•
57

visolex/phobert-absa-smartphone
Text Classification
•
0.1B
•
Updated
•
136

visolex/bartpho-hsd
Text Classification
•
0.4B
•
Updated
•
13

visolex/phobert-hsd-span
Token Classification
•
Updated
•
5

visolex/visobert-hsd-span
Token Classification
•
Updated
•
7

visolex/bartpho-spam-classification
Text Classification
•
0.4B
•
Updated
•
5

visolex/bartpho-spam-binary
Text Classification
•
0.4B
•
Updated
•
4

visolex/visobert-spam-classification
Text Classification
•
0.1B
•
Updated
•
8
datasets
12
visolex/UIT-VSMEC
Viewer
•
Updated
•
6.93k
•
20
visolex/VLSP2018-ABSA-Restaurant
Viewer
•
Updated
•
4.75k
•
4
visolex/VLSP2018-ABSA-Hotel
Viewer
•
Updated
•
5.6k
•
4
visolex/BKEE
Viewer
•
Updated
•
19k
•
4
visolex/ViLexNorm
Viewer
•
Updated
•
10.5k
•
7
visolex/ViSFD
Viewer
•
Updated
•
11.1k
•
4
visolex/VITHSD
Viewer
•
Updated
•
10k
•
1
visolex/ViHSD
Viewer
•
Updated
•
33.4k
•
2
visolex/ViSpamReviews
Viewer
•
Updated
•
19.9k
•
4
visolex/VN-HSD
Viewer
•
Updated
•
40.5k
•
30