TrustSafeAI

community

https://sites.google.com/site/pinyuchenpage/home

pinyuchenTW

pinyuchen

AI & ML interests

Research Demos and Tools for Trustworthy and Safe AI Development and Deployment

Recent Activity

pinyuchen updated a Space 11 days ago

TrustSafeAI/README

pinyuchen updated a collection 11 days ago

DivEye: Diversity-Driven AI Text Detector

xljesse updated a model about 1 month ago

TrustSafeAI/AudioDeepfakeDetectors

View all activity

TrustSafeAI 's Spaces 13

CoP Agentic Red-teaming

Generate jailbreak prompts for LLMs using human-defined principles

AudioDeepfakeDetector

Detect fake audio clips

AudioPerturber

Evaluate audio deepfake detection robustness

Retention Score

Evaluate jailbreak risks for Vision-Language Models

Token Highlighter

Demonstration of Token Highlighter: A Jailbreak Defense

GradientCuff-Jailbreak-Defense

Demonstration of Gradient Cuff: A Jailbreak Defense

Attention Tracker Prompt Injection Detector

Attention Tracker: Prompt Injection Detector

LLM Physical Safety

LLM benchmark for Physical Safety

NeuralFuse

Protect Model from Suffering Low-voltage-induced Bit Errors

NCTV: Neural Clamping Toolkit and Visualization

Model-agnostic Toolkit for Neural Network Calibration

GREAT Score

Evaluate adversarial robustness using generative models

Defensive Prompt Patch Jailbreak Defense

Generate safe responses from language models

RADAR AI Text Detector

Identify AI-generated text