:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Cohen, Aloni, Hoover, Alexander, Schoenbach, Gabe
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Cryptography and Security Artificial Intelligence Computation and Language
Accesso online:	https://arxiv.org/abs/2405.11109
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Provably Robust Watermarks for Open-Source Language Models
di: Christ, Miranda, et al.
Pubblicazione: (2024)

Mark My Words: Analyzing and Evaluating Language Model Watermarks
di: Piet, Julien, et al.
Pubblicazione: (2023)

Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models
di: Bai, Minhao, et al.
Pubblicazione: (2024)

Advancing Beyond Identification: Multi-bit Watermark for Large Language Models
di: Yoo, KiYoon, et al.
Pubblicazione: (2023)

GaussMark: A Practical Approach for Structural Watermarking of Language Models
di: Block, Adam, et al.
Pubblicazione: (2025)

Watermarking Makes Language Models Radioactive
di: Sander, Tom, et al.
Pubblicazione: (2024)

NSmark: Null Space Based Black-box Watermarking Defense Framework for Language Models
di: Zhao, Haodong, et al.
Pubblicazione: (2024)

Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond
di: Wang, Xuhong, et al.
Pubblicazione: (2024)

Duwak: Dual Watermarks in Large Language Models
di: Zhu, Chaoyi, et al.
Pubblicazione: (2024)

CATMark: A Context-Aware Thresholding Framework for Robust Cross-Task Watermarking in Large Language Models
di: Zhang, Yu, et al.
Pubblicazione: (2025)

Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models
di: Cohen, Aloni
Pubblicazione: (2025)

Functional Invariants to Watermark Large Transformers
di: Fernandez, Pierre, et al.
Pubblicazione: (2023)

PostMark: A Robust Blackbox Watermark for Large Language Models
di: Chang, Yapei, et al.
Pubblicazione: (2024)

SSG: Logit-Balanced Vocabulary Partitioning for LLM Watermarking
di: Gu, Chenxi, et al.
Pubblicazione: (2026)

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning
di: Fu, Tingchen, et al.
Pubblicazione: (2024)

Waterfall: Framework for Robust and Scalable Text Watermarking and Provenance for LLMs
di: Lau, Gregory Kang Ruey, et al.
Pubblicazione: (2024)

Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality
di: Hoang, Duy C., et al.
Pubblicazione: (2024)

XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
di: Xu, Jiahao, et al.
Pubblicazione: (2026)

SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness
di: Huo, Jiahao, et al.
Pubblicazione: (2026)

Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking
di: Xu, Yijie, et al.
Pubblicazione: (2025)

Beyond Context: Large Language Models' Failure to Grasp Users' Intent
di: Hussain, Ahmed M., et al.
Pubblicazione: (2025)

SWAN: Semantic Watermarking with Abstract Meaning Representation
di: Ye, Ziping, et al.
Pubblicazione: (2026)

Downstream Trade-offs of a Family of Text Watermarks
di: Ajith, Anirudh, et al.
Pubblicazione: (2023)

Optimizing Adaptive Attacks against Watermarks for Language Models
di: Diaa, Abdulrahman, et al.
Pubblicazione: (2024)

Reverse-Engineering Model Editing on Language Models
di: Sun, Zhiyu, et al.
Pubblicazione: (2026)

The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs
di: Chen, Bocheng, et al.
Pubblicazione: (2024)

Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models
di: Dang, Trung Cuong, et al.
Pubblicazione: (2025)

Watermarking Discrete Diffusion Language Models
di: Bagchi, Avi, et al.
Pubblicazione: (2025)

On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks
di: Liu, Zesen, et al.
Pubblicazione: (2024)

Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks
di: Cheng, Yixin, et al.
Pubblicazione: (2025)

Resource Consumption Threats in Large Language Models
di: Zhang, Yuanhe, et al.
Pubblicazione: (2026)

Imperceptible Jailbreaking against Large Language Models
di: Gao, Kuofeng, et al.
Pubblicazione: (2025)

Toward Cybersecurity-Expert Small Language Models
di: Levi, Matan, et al.
Pubblicazione: (2025)

No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents
di: Yang, Tiankai, et al.
Pubblicazione: (2026)

Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents
di: Ngong, Ivoline, et al.
Pubblicazione: (2025)

RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
di: Xu, Huiyu, et al.
Pubblicazione: (2024)

REEF: Representation Encoding Fingerprints for Large Language Models
di: Zhang, Jie, et al.
Pubblicazione: (2024)

Distract Large Language Models for Automatic Jailbreak Attack
di: Xiao, Zeguan, et al.
Pubblicazione: (2024)

Text Embedding Inversion Security for Multilingual Language Models
di: Chen, Yiyi, et al.
Pubblicazione: (2024)

Jailbreaking Large Language Models Through Content Concretization
di: Wahréus, Johan, et al.
Pubblicazione: (2025)