Gespeichert in:
| 1. Verfasser: | Ermilov, Almaz |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.02158 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text
von: Oketunji, Abiodun Finbarrs
Veröffentlicht: (2023)
von: Oketunji, Abiodun Finbarrs
Veröffentlicht: (2023)
PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation
von: Pulipaka, Srikar Kashyap
Veröffentlicht: (2026)
von: Pulipaka, Srikar Kashyap
Veröffentlicht: (2026)
Large Language Model (LLM) Bias Index -- LLMBI
von: Oketunji, Abiodun Finbarrs, et al.
Veröffentlicht: (2023)
von: Oketunji, Abiodun Finbarrs, et al.
Veröffentlicht: (2023)
The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
von: Garcia, Gabriel
Veröffentlicht: (2026)
von: Garcia, Gabriel
Veröffentlicht: (2026)
Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs
von: Suominen, Osma, et al.
Veröffentlicht: (2025)
von: Suominen, Osma, et al.
Veröffentlicht: (2025)
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use
von: Patel, Hitesh Laxmichand, et al.
Veröffentlicht: (2025)
von: Patel, Hitesh Laxmichand, et al.
Veröffentlicht: (2025)
Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models
von: Fadli, Samih
Veröffentlicht: (2025)
von: Fadli, Samih
Veröffentlicht: (2025)
GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets
von: Wu, Qiming, et al.
Veröffentlicht: (2024)
von: Wu, Qiming, et al.
Veröffentlicht: (2024)
ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
von: Ghosh, Shubhra, et al.
Veröffentlicht: (2025)
von: Ghosh, Shubhra, et al.
Veröffentlicht: (2025)
Dealing with Annotator Disagreement in Hate Speech Classification
von: Dehghan, Somaiyeh, et al.
Veröffentlicht: (2025)
von: Dehghan, Somaiyeh, et al.
Veröffentlicht: (2025)
Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies
von: Hong, Chunsan, et al.
Veröffentlicht: (2025)
von: Hong, Chunsan, et al.
Veröffentlicht: (2025)
The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs
von: Oliveira, Rafael C. T.
Veröffentlicht: (2026)
von: Oliveira, Rafael C. T.
Veröffentlicht: (2026)
Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures
von: Gao, Yutong, et al.
Veröffentlicht: (2026)
von: Gao, Yutong, et al.
Veröffentlicht: (2026)
IntentGrasp: A Comprehensive Benchmark for Intent Understanding
von: Yin, Yuwei, et al.
Veröffentlicht: (2026)
von: Yin, Yuwei, et al.
Veröffentlicht: (2026)
ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs
von: Vieira, Inês, et al.
Veröffentlicht: (2026)
von: Vieira, Inês, et al.
Veröffentlicht: (2026)
Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
von: Zhang, Chuyifei, et al.
Veröffentlicht: (2026)
von: Zhang, Chuyifei, et al.
Veröffentlicht: (2026)
Do Personality Traits Interfere? Geometric Limitations of Steering in Large Language Models
von: Bhandari, Pranav, et al.
Veröffentlicht: (2026)
von: Bhandari, Pranav, et al.
Veröffentlicht: (2026)
Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
von: Chen, Zizhe, et al.
Veröffentlicht: (2026)
von: Chen, Zizhe, et al.
Veröffentlicht: (2026)
Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
von: Wang, Shouren, et al.
Veröffentlicht: (2026)
von: Wang, Shouren, et al.
Veröffentlicht: (2026)
Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
Skill Availability and Presentation Granularity in Large-Language-Model Agents: A Controlled SkillsBench Study
von: Xu, Xiaonan, et al.
Veröffentlicht: (2026)
von: Xu, Xiaonan, et al.
Veröffentlicht: (2026)
The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level
von: Herbst, Jeremy, et al.
Veröffentlicht: (2026)
von: Herbst, Jeremy, et al.
Veröffentlicht: (2026)
Disentangling Direction and Magnitude in Transformer Representations: A Double Dissociation Through L2-Matched Perturbation Analysis
von: Vardhan, Mangadoddi Srikar, et al.
Veröffentlicht: (2026)
von: Vardhan, Mangadoddi Srikar, et al.
Veröffentlicht: (2026)
Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation
von: Venkata, Pruthvinath Jeripity
Veröffentlicht: (2026)
von: Venkata, Pruthvinath Jeripity
Veröffentlicht: (2026)
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
von: Orgad, Hadas, et al.
Veröffentlicht: (2026)
von: Orgad, Hadas, et al.
Veröffentlicht: (2026)
Self-Consistency from Only Two Samples: CoT-PoT Ensembling for Efficient LLM Reasoning
von: Saparkhan, Raman, et al.
Veröffentlicht: (2026)
von: Saparkhan, Raman, et al.
Veröffentlicht: (2026)
KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference
von: Nadali, Alireza, et al.
Veröffentlicht: (2026)
von: Nadali, Alireza, et al.
Veröffentlicht: (2026)
Robust Explanations for User Trust in Enterprise NLP Systems
von: Zhang, Guilin, et al.
Veröffentlicht: (2026)
von: Zhang, Guilin, et al.
Veröffentlicht: (2026)
AMALIA Technical Report: A Fully Open Source Large Language Model for European Portuguese
von: Simplício, Afonso, et al.
Veröffentlicht: (2026)
von: Simplício, Afonso, et al.
Veröffentlicht: (2026)
The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
Metaphors are a Source of Cross-Domain Misalignment of Large Reasoning Models
von: Hu, Zhibo, et al.
Veröffentlicht: (2026)
von: Hu, Zhibo, et al.
Veröffentlicht: (2026)
Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict
von: Venkata, Pruthvinath Jeripity
Veröffentlicht: (2026)
von: Venkata, Pruthvinath Jeripity
Veröffentlicht: (2026)
Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
von: Zhang, Zhaowei, et al.
Veröffentlicht: (2026)
von: Zhang, Zhaowei, et al.
Veröffentlicht: (2026)
One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries
von: Saini, Mayank, et al.
Veröffentlicht: (2026)
von: Saini, Mayank, et al.
Veröffentlicht: (2026)
Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts
von: Martin, Liu O., et al.
Veröffentlicht: (2026)
von: Martin, Liu O., et al.
Veröffentlicht: (2026)
AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency
von: Höth, Max Henning, et al.
Veröffentlicht: (2026)
von: Höth, Max Henning, et al.
Veröffentlicht: (2026)
DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer
von: Simon, Sona Elza, et al.
Veröffentlicht: (2025)
von: Simon, Sona Elza, et al.
Veröffentlicht: (2025)
Knowledge Graph Embeddings: A Comprehensive Survey on Capturing Relation Properties
von: Niu, Guanglin
Veröffentlicht: (2024)
von: Niu, Guanglin
Veröffentlicht: (2024)
Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions
von: Yun, Taedong, et al.
Veröffentlicht: (2025)
von: Yun, Taedong, et al.
Veröffentlicht: (2025)
Flash Multi-Head Feed-Forward Network
von: Zhang, Minshen, et al.
Veröffentlicht: (2025)
von: Zhang, Minshen, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text
von: Oketunji, Abiodun Finbarrs
Veröffentlicht: (2023) -
PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation
von: Pulipaka, Srikar Kashyap
Veröffentlicht: (2026) -
Large Language Model (LLM) Bias Index -- LLMBI
von: Oketunji, Abiodun Finbarrs, et al.
Veröffentlicht: (2023) -
The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
von: Garcia, Gabriel
Veröffentlicht: (2026) -
Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs
von: Suominen, Osma, et al.
Veröffentlicht: (2025)