Causal Tracing
Causal Tracing
Определение
Метод локализации знаний в LLM: зашумляются активации отдельных слоёв, и по падению уверенности модели определяется, где хранится конкретная информация.
Метод локализации знаний в LLM: зашумляются активации отдельных слоёв, и по падению уверенности модели определяется, где хранится конкретная информация.