Salvato in:
| Autori principali: | Mukherjee, Sagnik, Yuan, Lifan, Jayasinha, Pavan, Hakkani-Tür, Dilek, Peng, Hao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2602.07729 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
di: Mukherjee, Sagnik, et al.
Pubblicazione: (2025)
di: Mukherjee, Sagnik, et al.
Pubblicazione: (2025)
Do LLMs Encode Functional Importance of Reasoning Tokens?
di: Singh, Janvijay, et al.
Pubblicazione: (2026)
di: Singh, Janvijay, et al.
Pubblicazione: (2026)
Neural Networks for Learnable and Scalable Influence Estimation of Instruction Fine-Tuning Data
di: Agarwal, Ishika, et al.
Pubblicazione: (2025)
di: Agarwal, Ishika, et al.
Pubblicazione: (2025)
SIMU: Selective Influence Machine Unlearning
di: Agarwal, Anu, et al.
Pubblicazione: (2025)
di: Agarwal, Anu, et al.
Pubblicazione: (2025)
ToolRL: Reward is All Tool Learning Needs
di: Qian, Cheng, et al.
Pubblicazione: (2025)
di: Qian, Cheng, et al.
Pubblicazione: (2025)
Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
di: Bozdag, Nimet Beyza, et al.
Pubblicazione: (2025)
di: Bozdag, Nimet Beyza, et al.
Pubblicazione: (2025)
Self-Improving LLM Agents at Test-Time
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
Infogent: An Agent-Based Framework for Web Information Aggregation
di: Reddy, Revanth Gangi, et al.
Pubblicazione: (2024)
di: Reddy, Revanth Gangi, et al.
Pubblicazione: (2024)
Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue
di: Dongre, Vardhan, et al.
Pubblicazione: (2026)
di: Dongre, Vardhan, et al.
Pubblicazione: (2026)
Plan Verification for LLM-Based Embodied Task Completion Agents
di: Hariharan, Ananth, et al.
Pubblicazione: (2025)
di: Hariharan, Ananth, et al.
Pubblicazione: (2025)
User Preference Modeling for Conversational LLM Agents: Weak Rewards from Retrieval-Augmented Interaction
di: Hao, Yuren, et al.
Pubblicazione: (2026)
di: Hao, Yuren, et al.
Pubblicazione: (2026)
Simulating User Agents for Embodied Conversational-AI
di: Philipov, Daniel, et al.
Pubblicazione: (2024)
di: Philipov, Daniel, et al.
Pubblicazione: (2024)
Question Generation for Assessing Early Literacy Reading Comprehension
di: Yang, Xiaocheng, et al.
Pubblicazione: (2025)
di: Yang, Xiaocheng, et al.
Pubblicazione: (2025)
MultiSessionCollab: Learning User Preferences with Memory to Improve Long-Term Collaboration
di: Mehri, Shuhaib, et al.
Pubblicazione: (2026)
di: Mehri, Shuhaib, et al.
Pubblicazione: (2026)
Confidence Estimation for LLM-Based Dialogue State Tracking
di: Sun, Yi-Jyun, et al.
Pubblicazione: (2024)
di: Sun, Yi-Jyun, et al.
Pubblicazione: (2024)
AURA: A Diagnostic Framework for Tracking User Satisfaction of Interactive Planning Agents
di: Kim, Takyoung, et al.
Pubblicazione: (2025)
di: Kim, Takyoung, et al.
Pubblicazione: (2025)
On the Shelf Life of Fine-Tuned LLM-Judges: Future-Proofing, Backward-Compatibility, and Question Generalization
di: Singh, Janvijay, et al.
Pubblicazione: (2025)
di: Singh, Janvijay, et al.
Pubblicazione: (2025)
Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems
di: Kazi, Taaha, et al.
Pubblicazione: (2024)
di: Kazi, Taaha, et al.
Pubblicazione: (2024)
Unsupervised Human Preference Learning
di: Shashidhar, Sumuk, et al.
Pubblicazione: (2024)
di: Shashidhar, Sumuk, et al.
Pubblicazione: (2024)
MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations
di: Dongre, Vardhan, et al.
Pubblicazione: (2025)
di: Dongre, Vardhan, et al.
Pubblicazione: (2025)
SMART: Self-Aware Agent for Tool Overuse Mitigation
di: Qian, Cheng, et al.
Pubblicazione: (2025)
di: Qian, Cheng, et al.
Pubblicazione: (2025)
Spark: A System for Scientifically Creative Idea Generation
di: Sanyal, Aishik, et al.
Pubblicazione: (2025)
di: Sanyal, Aishik, et al.
Pubblicazione: (2025)
Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration
di: Kargupta, Priyanka, et al.
Pubblicazione: (2026)
di: Kargupta, Priyanka, et al.
Pubblicazione: (2026)
Combinatorial Creativity: A New Frontier in Generalization Abilities
di: Schapiro, Samuel, et al.
Pubblicazione: (2025)
di: Schapiro, Samuel, et al.
Pubblicazione: (2025)
Goal Alignment in LLM-Based User Simulators for Conversational AI
di: Mehri, Shuhaib, et al.
Pubblicazione: (2025)
di: Mehri, Shuhaib, et al.
Pubblicazione: (2025)
ReasoningFlow: Semantic Structure of Complex Reasoning Traces
di: Lee, Jinu, et al.
Pubblicazione: (2025)
di: Lee, Jinu, et al.
Pubblicazione: (2025)
AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions
di: Agarwal, Ishika, et al.
Pubblicazione: (2026)
di: Agarwal, Ishika, et al.
Pubblicazione: (2026)
SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
Aligning LLMs with Individual Preferences via Interaction
di: Wu, Shujin, et al.
Pubblicazione: (2024)
di: Wu, Shujin, et al.
Pubblicazione: (2024)
Anon: Extrapolating Adaptivity Beyond SGD and Adam
di: Zhang, Yiheng, et al.
Pubblicazione: (2026)
di: Zhang, Yiheng, et al.
Pubblicazione: (2026)
When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction
di: Dongre, Vardhan, et al.
Pubblicazione: (2026)
di: Dongre, Vardhan, et al.
Pubblicazione: (2026)
YourBench: Easy Custom Evaluation Sets for Everyone
di: Shashidhar, Sumuk, et al.
Pubblicazione: (2025)
di: Shashidhar, Sumuk, et al.
Pubblicazione: (2025)
Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs
di: Mukherjee, Sagnik, et al.
Pubblicazione: (2025)
di: Mukherjee, Sagnik, et al.
Pubblicazione: (2025)
Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge
di: Liu, Genglin, et al.
Pubblicazione: (2023)
di: Liu, Genglin, et al.
Pubblicazione: (2023)
Current Agents Fail to Leverage World Model as Tool for Foresight
di: Qian, Cheng, et al.
Pubblicazione: (2026)
di: Qian, Cheng, et al.
Pubblicazione: (2026)
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
di: Dongre, Vardhan, et al.
Pubblicazione: (2024)
di: Dongre, Vardhan, et al.
Pubblicazione: (2024)
ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue Systems
di: Zhang, Yifei, et al.
Pubblicazione: (2026)
di: Zhang, Yifei, et al.
Pubblicazione: (2026)
TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
MOCHA: Are Code Language Models Robust Against Multi-Turn Malicious Coding Prompts?
di: Wahed, Muntasir, et al.
Pubblicazione: (2025)
di: Wahed, Muntasir, et al.
Pubblicazione: (2025)
APOLLO: SGD-like Memory, AdamW-level Performance
di: Zhu, Hanqing, et al.
Pubblicazione: (2024)
di: Zhu, Hanqing, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
di: Mukherjee, Sagnik, et al.
Pubblicazione: (2025) -
Do LLMs Encode Functional Importance of Reasoning Tokens?
di: Singh, Janvijay, et al.
Pubblicazione: (2026) -
Neural Networks for Learnable and Scalable Influence Estimation of Instruction Fine-Tuning Data
di: Agarwal, Ishika, et al.
Pubblicazione: (2025) -
SIMU: Selective Influence Machine Unlearning
di: Agarwal, Anu, et al.
Pubblicazione: (2025) -
ToolRL: Reward is All Tool Learning Needs
di: Qian, Cheng, et al.
Pubblicazione: (2025)