Jordan Taylor's picture

34

Jordan Taylor

JordanTensor

·

https://sites.google.com/view/jordantensor

AI & ML interests

Mechanistic interpretability, mechanistic anomaly detection, model internals techniques and AI safety techniques generally.

Organizations

Collections 1

models 53

JordanTensor/gemma-sandbagging-ppvvz1jq-step7168

JordanTensor/gemma-sandbagging-ppvvz1jq-step6144

JordanTensor/gemma-sandbagging-ppvvz1jq-step4096

JordanTensor/gemma-sandbagging-ppvvz1jq-step2048

JordanTensor/gemma-sandbagging-ppvvz1jq-step1536

JordanTensor/gemma-sandbagging-ppvvz1jq-step1024

JordanTensor/gemma-sandbagging-ppvvz1jq-step512

JordanTensor/gemma-sandbagging-0w4j7rba-step1536

JordanTensor/gemma-sandbagging-0w4j7rba-step1024

JordanTensor/gemma-sandbagging-0w4j7rba-step512

datasets 3

JordanTensor/sandbagging-sciq

Viewer • Updated Feb 14 • 13.7k • 5 • 1

JordanTensor/sandbagging-prefixes

Viewer • Updated Dec 7, 2024 • 9.9k • 5 • 1

JordanTensor/bias_in_bios_verified_software_devs_only

Viewer • Updated Oct 9, 2024 • 5.9k • 2