English translation is not available yet. Showing Russian content.
Mechanistic interpretability
Mechanistic interpretability
Определение
Область исследований, направленная на обратный инжиниринг нейросетей: выявление конкретных цепочек нейронов и механизмов, отвечающих за вычисление концепций.
Где встречается
- 193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере