Gespeichert in:
| Hauptverfasser: | Moryossef, Amit, Meister, Clara, Stepachev, Pavel, Elliott, Desmond |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2510.16987 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8
von: Firestone, Preston, et al.
Veröffentlicht: (2025)
von: Firestone, Preston, et al.
Veröffentlicht: (2025)
sign.mt: Real-Time Multilingual Sign Language Translation Application
von: Moryossef, Amit
Veröffentlicht: (2023)
von: Moryossef, Amit
Veröffentlicht: (2023)
Real-Time Multilingual Sign Language Processing
von: Moryossef, Amit
Veröffentlicht: (2024)
von: Moryossef, Amit
Veröffentlicht: (2024)
SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models
von: Moryossef, Amit, et al.
Veröffentlicht: (2023)
von: Moryossef, Amit, et al.
Veröffentlicht: (2023)
Context and System Fusion in Post-ASR Emotion Recognition with Large Language Models
von: Stepachev, Pavel, et al.
Veröffentlicht: (2024)
von: Stepachev, Pavel, et al.
Veröffentlicht: (2024)
signwriting-evaluation: Effective Sign Language Evaluation via SignWriting
von: Moryossef, Amit, et al.
Veröffentlicht: (2024)
von: Moryossef, Amit, et al.
Veröffentlicht: (2024)
Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization
von: Foroutan, Negar, et al.
Veröffentlicht: (2025)
von: Foroutan, Negar, et al.
Veröffentlicht: (2025)
Token Distillation: Attention-aware Input Embeddings For New Tokens
von: Dobler, Konstantin, et al.
Veröffentlicht: (2025)
von: Dobler, Konstantin, et al.
Veröffentlicht: (2025)
Pose-Based Sign Language Appearance Transfer
von: Moryossef, Amit, et al.
Veröffentlicht: (2024)
von: Moryossef, Amit, et al.
Veröffentlicht: (2024)
Tracking Universal Features Through Fine-Tuning and Model Merging
von: Horn, Niels, et al.
Veröffentlicht: (2024)
von: Horn, Niels, et al.
Veröffentlicht: (2024)
Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era
von: Oneata, Dan, et al.
Veröffentlicht: (2025)
von: Oneata, Dan, et al.
Veröffentlicht: (2025)
Ham2Pose: Animating Sign Language Notation into Pose Sequences
von: Shalev-Arkushin, Rotem, et al.
Veröffentlicht: (2022)
von: Shalev-Arkushin, Rotem, et al.
Veröffentlicht: (2022)
What Language is This? Ask Your Tokenizer
von: Meister, Clara, et al.
Veröffentlicht: (2026)
von: Meister, Clara, et al.
Veröffentlicht: (2026)
A Formal Perspective on Byte-Pair Encoding
von: Zouhar, Vilém, et al.
Veröffentlicht: (2023)
von: Zouhar, Vilém, et al.
Veröffentlicht: (2023)
Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors
von: Moryossef, Amit
Veröffentlicht: (2024)
von: Moryossef, Amit
Veröffentlicht: (2024)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation
von: Iyer, Vivek, et al.
Veröffentlicht: (2024)
von: Iyer, Vivek, et al.
Veröffentlicht: (2024)
How to Compute the Probability of a Word
von: Pimentel, Tiago, et al.
Veröffentlicht: (2024)
von: Pimentel, Tiago, et al.
Veröffentlicht: (2024)
SignCLIP: Connecting Text and Sign Language by Contrastive Learning
von: Jiang, Zifan, et al.
Veröffentlicht: (2024)
von: Jiang, Zifan, et al.
Veröffentlicht: (2024)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation
von: Ziegler, Ingo, et al.
Veröffentlicht: (2024)
von: Ziegler, Ingo, et al.
Veröffentlicht: (2024)
Towards a Similarity-adjusted Surprisal Theory
von: Meister, Clara, et al.
Veröffentlicht: (2024)
von: Meister, Clara, et al.
Veröffentlicht: (2024)
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations
von: Zhang, Mike, et al.
Veröffentlicht: (2026)
von: Zhang, Mike, et al.
Veröffentlicht: (2026)
Byte BPE Tokenization as an Inverse string Homomorphism
von: Geng, Saibo, et al.
Veröffentlicht: (2024)
von: Geng, Saibo, et al.
Veröffentlicht: (2024)
Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
von: Jang, Eugene, et al.
Veröffentlicht: (2024)
von: Jang, Eugene, et al.
Veröffentlicht: (2024)
How Do Multilingual Language Models Remember Facts?
von: Fierro, Constanza, et al.
Veröffentlicht: (2024)
von: Fierro, Constanza, et al.
Veröffentlicht: (2024)
Entropy-Driven Pre-Tokenization for Byte-Pair Encoding
von: Hu, Yifan, et al.
Veröffentlicht: (2025)
von: Hu, Yifan, et al.
Veröffentlicht: (2025)
Distilling Token-Trained Models into Byte-Level Models
von: Bao, Zishuo, et al.
Veröffentlicht: (2026)
von: Bao, Zishuo, et al.
Veröffentlicht: (2026)
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer
von: Deng, Chunyuan, et al.
Veröffentlicht: (2026)
von: Deng, Chunyuan, et al.
Veröffentlicht: (2026)
MultimodalHugs: Enabling Sign Language Processing in Hugging Face
von: Sant, Gerard, et al.
Veröffentlicht: (2025)
von: Sant, Gerard, et al.
Veröffentlicht: (2025)
ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models
von: Villegas, Danae Sánchez, et al.
Veröffentlicht: (2025)
von: Villegas, Danae Sánchez, et al.
Veröffentlicht: (2025)
Byte Latent Transformer: Patches Scale Better Than Tokens
von: Pagnoni, Artidoro, et al.
Veröffentlicht: (2024)
von: Pagnoni, Artidoro, et al.
Veröffentlicht: (2024)
Can Community Notes Replace Professional Fact-Checkers?
von: Borenstein, Nadav, et al.
Veröffentlicht: (2025)
von: Borenstein, Nadav, et al.
Veröffentlicht: (2025)
Validating UTF-8 In Less Than One Instruction Per Byte
von: Keiser, John, et al.
Veröffentlicht: (2020)
von: Keiser, John, et al.
Veröffentlicht: (2020)
BBPE16: UTF-16-based byte-level byte-pair encoding for improved multilingual speech recognition
von: Kim, Hyunsik, et al.
Veröffentlicht: (2026)
von: Kim, Hyunsik, et al.
Veröffentlicht: (2026)
Cross-Tokenizer LLM Distillation through a Byte-Level Interface
von: Singh, Avyav Kumar, et al.
Veröffentlicht: (2026)
von: Singh, Avyav Kumar, et al.
Veröffentlicht: (2026)
From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution
von: Chizhov, Pavel, et al.
Veröffentlicht: (2026)
von: Chizhov, Pavel, et al.
Veröffentlicht: (2026)
MambaByte: Token-free Selective State Space Model
von: Wang, Junxiong, et al.
Veröffentlicht: (2024)
von: Wang, Junxiong, et al.
Veröffentlicht: (2024)
Locally Typical Sampling
von: Meister, Clara, et al.
Veröffentlicht: (2022)
von: Meister, Clara, et al.
Veröffentlicht: (2022)
Kathleen: Oscillator-Based Byte-Level Text Classification Without Tokenization or Attention
von: Fountzoulas, George
Veröffentlicht: (2026)
von: Fountzoulas, George
Veröffentlicht: (2026)
GPUTOK: GPU Accelerated Byte Level BPE Tokenization
von: Kadamba, Venu Gopal, et al.
Veröffentlicht: (2026)
von: Kadamba, Venu Gopal, et al.
Veröffentlicht: (2026)
Formal Aspects of Language Modeling
von: Cotterell, Ryan, et al.
Veröffentlicht: (2023)
von: Cotterell, Ryan, et al.
Veröffentlicht: (2023)
Ähnliche Einträge
-
UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8
von: Firestone, Preston, et al.
Veröffentlicht: (2025) -
sign.mt: Real-Time Multilingual Sign Language Translation Application
von: Moryossef, Amit
Veröffentlicht: (2023) -
Real-Time Multilingual Sign Language Processing
von: Moryossef, Amit
Veröffentlicht: (2024) -
SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models
von: Moryossef, Amit, et al.
Veröffentlicht: (2023) -
Context and System Fusion in Post-ASR Emotion Recognition with Large Language Models
von: Stepachev, Pavel, et al.
Veröffentlicht: (2024)