Salvato in:
| Autori principali: | Cohen, Aloni, Hoover, Alexander, Schoenbach, Gabe |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2405.11109 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Provably Robust Watermarks for Open-Source Language Models
di: Christ, Miranda, et al.
Pubblicazione: (2024)
di: Christ, Miranda, et al.
Pubblicazione: (2024)
Mark My Words: Analyzing and Evaluating Language Model Watermarks
di: Piet, Julien, et al.
Pubblicazione: (2023)
di: Piet, Julien, et al.
Pubblicazione: (2023)
Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models
di: Bai, Minhao, et al.
Pubblicazione: (2024)
di: Bai, Minhao, et al.
Pubblicazione: (2024)
Advancing Beyond Identification: Multi-bit Watermark for Large Language Models
di: Yoo, KiYoon, et al.
Pubblicazione: (2023)
di: Yoo, KiYoon, et al.
Pubblicazione: (2023)
GaussMark: A Practical Approach for Structural Watermarking of Language Models
di: Block, Adam, et al.
Pubblicazione: (2025)
di: Block, Adam, et al.
Pubblicazione: (2025)
Watermarking Makes Language Models Radioactive
di: Sander, Tom, et al.
Pubblicazione: (2024)
di: Sander, Tom, et al.
Pubblicazione: (2024)
NSmark: Null Space Based Black-box Watermarking Defense Framework for Language Models
di: Zhao, Haodong, et al.
Pubblicazione: (2024)
di: Zhao, Haodong, et al.
Pubblicazione: (2024)
Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond
di: Wang, Xuhong, et al.
Pubblicazione: (2024)
di: Wang, Xuhong, et al.
Pubblicazione: (2024)
Duwak: Dual Watermarks in Large Language Models
di: Zhu, Chaoyi, et al.
Pubblicazione: (2024)
di: Zhu, Chaoyi, et al.
Pubblicazione: (2024)
CATMark: A Context-Aware Thresholding Framework for Robust Cross-Task Watermarking in Large Language Models
di: Zhang, Yu, et al.
Pubblicazione: (2025)
di: Zhang, Yu, et al.
Pubblicazione: (2025)
Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models
di: Cohen, Aloni
Pubblicazione: (2025)
di: Cohen, Aloni
Pubblicazione: (2025)
Functional Invariants to Watermark Large Transformers
di: Fernandez, Pierre, et al.
Pubblicazione: (2023)
di: Fernandez, Pierre, et al.
Pubblicazione: (2023)
PostMark: A Robust Blackbox Watermark for Large Language Models
di: Chang, Yapei, et al.
Pubblicazione: (2024)
di: Chang, Yapei, et al.
Pubblicazione: (2024)
SSG: Logit-Balanced Vocabulary Partitioning for LLM Watermarking
di: Gu, Chenxi, et al.
Pubblicazione: (2026)
di: Gu, Chenxi, et al.
Pubblicazione: (2026)
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning
di: Fu, Tingchen, et al.
Pubblicazione: (2024)
di: Fu, Tingchen, et al.
Pubblicazione: (2024)
Waterfall: Framework for Robust and Scalable Text Watermarking and Provenance for LLMs
di: Lau, Gregory Kang Ruey, et al.
Pubblicazione: (2024)
di: Lau, Gregory Kang Ruey, et al.
Pubblicazione: (2024)
Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality
di: Hoang, Duy C., et al.
Pubblicazione: (2024)
di: Hoang, Duy C., et al.
Pubblicazione: (2024)
XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
di: Xu, Jiahao, et al.
Pubblicazione: (2026)
di: Xu, Jiahao, et al.
Pubblicazione: (2026)
SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness
di: Huo, Jiahao, et al.
Pubblicazione: (2026)
di: Huo, Jiahao, et al.
Pubblicazione: (2026)
Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking
di: Xu, Yijie, et al.
Pubblicazione: (2025)
di: Xu, Yijie, et al.
Pubblicazione: (2025)
Beyond Context: Large Language Models' Failure to Grasp Users' Intent
di: Hussain, Ahmed M., et al.
Pubblicazione: (2025)
di: Hussain, Ahmed M., et al.
Pubblicazione: (2025)
SWAN: Semantic Watermarking with Abstract Meaning Representation
di: Ye, Ziping, et al.
Pubblicazione: (2026)
di: Ye, Ziping, et al.
Pubblicazione: (2026)
Downstream Trade-offs of a Family of Text Watermarks
di: Ajith, Anirudh, et al.
Pubblicazione: (2023)
di: Ajith, Anirudh, et al.
Pubblicazione: (2023)
Optimizing Adaptive Attacks against Watermarks for Language Models
di: Diaa, Abdulrahman, et al.
Pubblicazione: (2024)
di: Diaa, Abdulrahman, et al.
Pubblicazione: (2024)
Reverse-Engineering Model Editing on Language Models
di: Sun, Zhiyu, et al.
Pubblicazione: (2026)
di: Sun, Zhiyu, et al.
Pubblicazione: (2026)
The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs
di: Chen, Bocheng, et al.
Pubblicazione: (2024)
di: Chen, Bocheng, et al.
Pubblicazione: (2024)
Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models
di: Dang, Trung Cuong, et al.
Pubblicazione: (2025)
di: Dang, Trung Cuong, et al.
Pubblicazione: (2025)
Watermarking Discrete Diffusion Language Models
di: Bagchi, Avi, et al.
Pubblicazione: (2025)
di: Bagchi, Avi, et al.
Pubblicazione: (2025)
On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks
di: Liu, Zesen, et al.
Pubblicazione: (2024)
di: Liu, Zesen, et al.
Pubblicazione: (2024)
Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks
di: Cheng, Yixin, et al.
Pubblicazione: (2025)
di: Cheng, Yixin, et al.
Pubblicazione: (2025)
Resource Consumption Threats in Large Language Models
di: Zhang, Yuanhe, et al.
Pubblicazione: (2026)
di: Zhang, Yuanhe, et al.
Pubblicazione: (2026)
Imperceptible Jailbreaking against Large Language Models
di: Gao, Kuofeng, et al.
Pubblicazione: (2025)
di: Gao, Kuofeng, et al.
Pubblicazione: (2025)
Toward Cybersecurity-Expert Small Language Models
di: Levi, Matan, et al.
Pubblicazione: (2025)
di: Levi, Matan, et al.
Pubblicazione: (2025)
No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents
di: Yang, Tiankai, et al.
Pubblicazione: (2026)
di: Yang, Tiankai, et al.
Pubblicazione: (2026)
Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents
di: Ngong, Ivoline, et al.
Pubblicazione: (2025)
di: Ngong, Ivoline, et al.
Pubblicazione: (2025)
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
di: Xu, Huiyu, et al.
Pubblicazione: (2024)
di: Xu, Huiyu, et al.
Pubblicazione: (2024)
REEF: Representation Encoding Fingerprints for Large Language Models
di: Zhang, Jie, et al.
Pubblicazione: (2024)
di: Zhang, Jie, et al.
Pubblicazione: (2024)
Distract Large Language Models for Automatic Jailbreak Attack
di: Xiao, Zeguan, et al.
Pubblicazione: (2024)
di: Xiao, Zeguan, et al.
Pubblicazione: (2024)
Text Embedding Inversion Security for Multilingual Language Models
di: Chen, Yiyi, et al.
Pubblicazione: (2024)
di: Chen, Yiyi, et al.
Pubblicazione: (2024)
Jailbreaking Large Language Models Through Content Concretization
di: Wahréus, Johan, et al.
Pubblicazione: (2025)
di: Wahréus, Johan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Provably Robust Watermarks for Open-Source Language Models
di: Christ, Miranda, et al.
Pubblicazione: (2024) -
Mark My Words: Analyzing and Evaluating Language Model Watermarks
di: Piet, Julien, et al.
Pubblicazione: (2023) -
Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models
di: Bai, Minhao, et al.
Pubblicazione: (2024) -
Advancing Beyond Identification: Multi-bit Watermark for Large Language Models
di: Yoo, KiYoon, et al.
Pubblicazione: (2023) -
GaussMark: A Practical Approach for Structural Watermarking of Language Models
di: Block, Adam, et al.
Pubblicazione: (2025)