:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Poznanski, Jake, Rangapur, Aman, Borchardt, Jon, Dunkelberger, Jason, Huff, Regan, Lin, Daniel, Wilhelm, Christopher, Lo, Kyle, Soldaini, Luca
Format:	Preprint
Published:	2025
Subjects:	Computation and Language
Online Access:	https://arxiv.org/abs/2502.18443
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

olmOCR 2: Unit Test Rewards for Document OCR
by: Poznanski, Jake, et al.
Published: (2025)

The Battle of LLMs: A Comparative Study in Conversational QA Tasks
by: Rangapur, Aryan, et al.
Published: (2024)

Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation
by: Rangapur, Aman, et al.
Published: (2023)

Piecing It All Together: Verifying Multi-Hop Multimodal Claims
by: Wang, Haoran, et al.
Published: (2024)

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens
by: Liu, Jiacheng, et al.
Published: (2025)

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
by: Soldaini, Luca, et al.
Published: (2024)

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs
by: Chang, Yapei, et al.
Published: (2026)

DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images
by: Baral, Sami, et al.
Published: (2025)

Automatic Detection of Research Values from Scientific Abstracts Across Computer Science Subfields
by: Jiang, Hang, et al.
Published: (2025)

RouterRetriever: Routing over a Mixture of Expert Embedding Models
by: Lee, Hyunji, et al.
Published: (2024)

Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula
by: Lucy, Li, et al.
Published: (2024)

Organize the Web: Constructing Domains Enhances Pre-Training Data Curation
by: Wettig, Alexander, et al.
Published: (2025)

KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions
by: Xu, Fangyuan, et al.
Published: (2024)

2 OLMo 2 Furious
by: OLMo, Team, et al.
Published: (2024)

A useful representation of TESS light curves
by: Poznanski, Dovi
Published: (2026)

Exploring Fusion Strategies for Multimodal Vision-Language Systems
by: Willis, Regan, et al.
Published: (2025)

LogicDiff: Logic-Guided Denoising Improves Zero-Shot Reasoning in Masked Diffusion Language Models
by: Aman, Shaik
Published: (2026)

LoPace: A Lossless Optimized Prompt Accurate Compression Engine for Large Language Model Applications
by: Ulla, Aman
Published: (2026)

Scaling Retrieval-Based Language Models with a Trillion-Token Datastore
by: Shao, Rulin, et al.
Published: (2024)

Bayesian model mixing with multi-reference energy density functional
by: Sharma, Aman, et al.
Published: (2024)

Olmix: A Framework for Data Mixing Throughout LM Development
by: Chen, Mayee F., et al.
Published: (2026)

Machine Translation for Ge'ez Language
by: Wassie, Aman Kassahun
Published: (2023)

Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision
by: Urumbekov, Aman, et al.
Published: (2025)

Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
by: Sinha, Neelabh, et al.
Published: (2024)

Understanding Inference-Time Token Allocation and Coverage Limits in Agentic Hardware Verification
by: Patel, Vihaan, et al.
Published: (2026)

When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets
by: Weller, Orion, et al.
Published: (2023)

GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models
by: Sharma, Aditya, et al.
Published: (2024)

How Culturally Aware are Vision-Language Models?
by: Burda-Lassen, Olena, et al.
Published: (2024)

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
by: Sharma, Aman, et al.
Published: (2026)

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
by: Liu, Jiacheng, et al.
Published: (2024)

Leveraging Large Language Models for Web Scraping
by: Ahluwalia, Aman, et al.
Published: (2024)

Improved Alignment of Modalities in Large Vision Language Models
by: Jangra, Kartik, et al.
Published: (2025)

Anticipatory Gains and Event-Driven Losses in Blockchain-Based Fan Tokens: Evidence from the FIFA World Cup
by: Saggu, Aman, et al.
Published: (2024)

Voting Participation and Engagement in Blockchain-Based Fan Tokens
by: Ante, Lennart, et al.
Published: (2024)

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset
by: DatologyAI, et al.
Published: (2026)

En la lengua del Otro: la Unión Europea y el diálogo intercultural como instrumento de exclusión
by: Robert Aman
Published: (2012)

test
by: Goel, Aman
Published: (2025)

Sarvaprakataviveka
by: Chawla, Aman
Published: (2025)

RooAgent: An LLM Agent for Root-Based High Energy Physics Analysis
by: Desai, Aman
Published: (2026)

Decoupling Forward Aggregation and Backward Propagation for Robust Neural Computation: a Python Study
by: Chawla, Aman
Published: (2026)