Gespeichert in:
| Hauptverfasser: | Shin, Joonhyeok, Kang, Jaehoon, Lee, Yujun, Lee, Hannah, Lee, Yejin, Park, Yoonji, Shim, Kyuhong |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2604.07895 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models
von: Kang, Jaehoon, et al.
Veröffentlicht: (2026)
von: Kang, Jaehoon, et al.
Veröffentlicht: (2026)
Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
von: Ahn, Hoseong, et al.
Veröffentlicht: (2026)
von: Ahn, Hoseong, et al.
Veröffentlicht: (2026)
P2VA: Converting Persona Descriptions into Voice Attributes for Fair and Controllable Text-to-Speech
von: Lee, Yejin, et al.
Veröffentlicht: (2025)
von: Lee, Yejin, et al.
Veröffentlicht: (2025)
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
von: Lee, Hanna, et al.
Veröffentlicht: (2026)
von: Lee, Hanna, et al.
Veröffentlicht: (2026)
Evaluating Hallucinations in Audio-Visual Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
von: Park, Hansol, et al.
Veröffentlicht: (2025)
von: Park, Hansol, et al.
Veröffentlicht: (2025)
Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models
von: Kim, Donghoon, et al.
Veröffentlicht: (2024)
von: Kim, Donghoon, et al.
Veröffentlicht: (2024)
Learning Primitive Relations for Compositional Zero-Shot Learning
von: Lee, Insu, et al.
Veröffentlicht: (2025)
von: Lee, Insu, et al.
Veröffentlicht: (2025)
Revealing Multi-View Hallucination in Large Vision-Language Models
von: Park, Wooje, et al.
Veröffentlicht: (2026)
von: Park, Wooje, et al.
Veröffentlicht: (2026)
Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs
von: Lee, Insu, et al.
Veröffentlicht: (2025)
von: Lee, Insu, et al.
Veröffentlicht: (2025)
Unlocking Transfer Learning for Open-World Few-Shot Recognition
von: Kim, Byeonggeun, et al.
Veröffentlicht: (2024)
von: Kim, Byeonggeun, et al.
Veröffentlicht: (2024)
ProKG-Dial: Progressive Multi-Turn Dialogue Construction with Domain Knowledge Graphs
von: Liang, Yuanyuan, et al.
Veröffentlicht: (2025)
von: Liang, Yuanyuan, et al.
Veröffentlicht: (2025)
Chain-of-Rank: Enhancing Large Language Models for Domain-Specific RAG in Edge Device
von: Lee, Juntae, et al.
Veröffentlicht: (2025)
von: Lee, Juntae, et al.
Veröffentlicht: (2025)
Adaptive Capacity Allocation for Vision Language Action Fine-tuning
von: Kim, Donghoon, et al.
Veröffentlicht: (2026)
von: Kim, Donghoon, et al.
Veröffentlicht: (2026)
PSY-STEP: Structuring Therapeutic Targets and Action Sequences for Proactive Counseling Dialogue Systems
von: Lee, Jihyun, et al.
Veröffentlicht: (2026)
von: Lee, Jihyun, et al.
Veröffentlicht: (2026)
A Temporal Graph Network Framework for Dynamic Recommendation
von: Kim, Yejin, et al.
Veröffentlicht: (2024)
von: Kim, Yejin, et al.
Veröffentlicht: (2024)
SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
von: Cao, Hongye, et al.
Veröffentlicht: (2025)
von: Cao, Hongye, et al.
Veröffentlicht: (2025)
Mask2Flow-TSE: Two-Stage Target Speaker Extraction with Masking and Flow Matching
von: Moon, Junwon, et al.
Veröffentlicht: (2026)
von: Moon, Junwon, et al.
Veröffentlicht: (2026)
Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models
von: Kim, Donghoon, et al.
Veröffentlicht: (2025)
von: Kim, Donghoon, et al.
Veröffentlicht: (2025)
NOVI : Chatbot System for University Novice with BERT and LLMs
von: Nam, Yoonji, et al.
Veröffentlicht: (2024)
von: Nam, Yoonji, et al.
Veröffentlicht: (2024)
Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue
von: Al-Lawati, Ali, et al.
Veröffentlicht: (2026)
von: Al-Lawati, Ali, et al.
Veröffentlicht: (2026)
PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization
von: Kim, Wonjoong, et al.
Veröffentlicht: (2026)
von: Kim, Wonjoong, et al.
Veröffentlicht: (2026)
ArtSplat: Feed-Forward Articulated 3D Gaussian Splatting from Sparse Multi-State Uncalibrated Views
von: Lee, Inseo, et al.
Veröffentlicht: (2026)
von: Lee, Inseo, et al.
Veröffentlicht: (2026)
A Recommender System for NFT Collectibles with Item Feature
von: Choi, Minjoo, et al.
Veröffentlicht: (2024)
von: Choi, Minjoo, et al.
Veröffentlicht: (2024)
UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style
von: Kang, Yan, et al.
Veröffentlicht: (2024)
von: Kang, Yan, et al.
Veröffentlicht: (2024)
CLIP-KOA: Enhancing Knee Osteoarthritis Diagnosis with Multi-Modal Learning and Symmetry-Aware Loss Functions
von: Jeong, Yejin, et al.
Veröffentlicht: (2025)
von: Jeong, Yejin, et al.
Veröffentlicht: (2025)
BGM-HAN: A Hierarchical Attention Network for Accurate and Fair Decision Assessment on Semi-Structured Profiles
von: Liu, Junhua, et al.
Veröffentlicht: (2025)
von: Liu, Junhua, et al.
Veröffentlicht: (2025)
No Thing, Nothing: Highlighting Safety-Critical Classes for Robust LiDAR Semantic Segmentation in Adverse Weather
von: Park, Junsung, et al.
Veröffentlicht: (2025)
von: Park, Junsung, et al.
Veröffentlicht: (2025)
OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
von: Kim, Jaehoon, et al.
Veröffentlicht: (2026)
von: Kim, Jaehoon, et al.
Veröffentlicht: (2026)
Partial-Multivariate Model for Forecasting
von: Lee, Jaehoon, et al.
Veröffentlicht: (2024)
von: Lee, Jaehoon, et al.
Veröffentlicht: (2024)
FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing
von: Lee, Jaehoon, et al.
Veröffentlicht: (2026)
von: Lee, Jaehoon, et al.
Veröffentlicht: (2026)
Beyond Task-Oriented and Chitchat Dialogues: Proactive and Transition-Aware Conversational Agents
von: Yoon, Yejin, et al.
Veröffentlicht: (2025)
von: Yoon, Yejin, et al.
Veröffentlicht: (2025)
DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
von: Kim, Jiho, et al.
Veröffentlicht: (2024)
von: Kim, Jiho, et al.
Veröffentlicht: (2024)
GuruAgents: Emulating Wise Investors with Prompt-Guided LLM Agents
von: Kim, Yejin, et al.
Veröffentlicht: (2025)
von: Kim, Yejin, et al.
Veröffentlicht: (2025)
Prediction of Highway Traffic Flow Based on Artificial Intelligence Algorithms Using California Traffic Data
von: Lee, Junseong, et al.
Veröffentlicht: (2025)
von: Lee, Junseong, et al.
Veröffentlicht: (2025)
Stock Recommendations for Individual Investors: A Temporal Graph Network Approach with Mean-Variance Efficient Sampling
von: Lee, Youngbin, et al.
Veröffentlicht: (2024)
von: Lee, Youngbin, et al.
Veröffentlicht: (2024)
Federated Recommender System with Data Valuation for E-commerce Platform
von: Park, Jongwon, et al.
Veröffentlicht: (2025)
von: Park, Jongwon, et al.
Veröffentlicht: (2025)
A Self-Supervised Mixture-of-Experts Framework for Multi-behavior Recommendation
von: Kim, Kyungho, et al.
Veröffentlicht: (2025)
von: Kim, Kyungho, et al.
Veröffentlicht: (2025)
Multi-Behavior Recommender Systems: A Survey
von: Kim, Kyungho, et al.
Veröffentlicht: (2025)
von: Kim, Kyungho, et al.
Veröffentlicht: (2025)
A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation
von: Shim, Ho Sung, et al.
Veröffentlicht: (2024)
von: Shim, Ho Sung, et al.
Veröffentlicht: (2024)
DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph
von: Lee, Jihyung, et al.
Veröffentlicht: (2025)
von: Lee, Jihyung, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models
von: Kang, Jaehoon, et al.
Veröffentlicht: (2026) -
Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
von: Ahn, Hoseong, et al.
Veröffentlicht: (2026) -
P2VA: Converting Persona Descriptions into Voice Attributes for Fair and Controllable Text-to-Speech
von: Lee, Yejin, et al.
Veröffentlicht: (2025) -
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
von: Lee, Hanna, et al.
Veröffentlicht: (2026) -
Evaluating Hallucinations in Audio-Visual Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
von: Park, Hansol, et al.
Veröffentlicht: (2025)