Enregistré dans:
| Auteurs principaux: | Urbinati, Alessandra, Lai, Mirko, Frenda, Simona, Stranisci, Marco Antonio |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.22699 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets
par: Stranisci, Marco Antonio, et autres
Publié: (2025)
par: Stranisci, Marco Antonio, et autres
Publié: (2025)
That is Unacceptable: the Moral Foundations of Canceling
par: Lo, Soda Marem, et autres
Publié: (2025)
par: Lo, Soda Marem, et autres
Publié: (2025)
Can NLP Tackle Hate Speech in the Real World? Stakeholder-Informed Feedback and Survey on Counterspeech
par: Dinkar, Tanvi, et autres
Publié: (2025)
par: Dinkar, Tanvi, et autres
Publié: (2025)
Wikibio: a Semantic Resource for the Intersectional Analysis of Biographical Events
par: Stranisci, Marco Antonio, et autres
Publié: (2023)
par: Stranisci, Marco Antonio, et autres
Publié: (2023)
Dealing with Controversy: An Emotion and Coping Strategy Corpus Based on Role Playing
par: Troiano, Enrica, et autres
Publié: (2024)
par: Troiano, Enrica, et autres
Publié: (2024)
GFG -- Gender-Fair Generation: A CALAMITA Challenge
par: Frenda, Simona, et autres
Publié: (2024)
par: Frenda, Simona, et autres
Publié: (2024)
Downstream bias mitigation is all you need
par: Baksi, Arkadeep, et autres
Publié: (2024)
par: Baksi, Arkadeep, et autres
Publié: (2024)
Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences
par: Oprea, Simona-Vasilica, et autres
Publié: (2026)
par: Oprea, Simona-Vasilica, et autres
Publié: (2026)
Conspiracy Frame: a Semiotically-Driven Approach for Conspiracy Theories Detection
par: Piva, Heidi Campana, et autres
Publié: (2026)
par: Piva, Heidi Campana, et autres
Publié: (2026)
TailNLG: A Multilingual Benchmark Addressing Verbalization of Long-Tail Entities
par: Draetta, Lia, et autres
Publié: (2026)
par: Draetta, Lia, et autres
Publié: (2026)
Hate Personified: Investigating the role of LLMs in content moderation
par: Masud, Sarah, et autres
Publié: (2024)
par: Masud, Sarah, et autres
Publié: (2024)
Identifying the sources of ideological bias in GPT models through linguistic variation in output
par: Walker, Christina, et autres
Publié: (2024)
par: Walker, Christina, et autres
Publié: (2024)
Anthropocentric bias in language model evaluation
par: Millière, Raphaël, et autres
Publié: (2024)
par: Millière, Raphaël, et autres
Publié: (2024)
Addressing cognitive bias in medical language models
par: Schmidgall, Samuel, et autres
Publié: (2024)
par: Schmidgall, Samuel, et autres
Publié: (2024)
MindScope: Exploring cognitive biases in large language models through Multi-Agent Systems
par: Xie, Zhentao, et autres
Publié: (2024)
par: Xie, Zhentao, et autres
Publié: (2024)
Prompting Science Report 3: I'll pay you or I'll kill you -- but will you care?
par: Meincke, Lennart, et autres
Publié: (2025)
par: Meincke, Lennart, et autres
Publié: (2025)
Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators
par: Cao, Yang Trista, et autres
Publié: (2023)
par: Cao, Yang Trista, et autres
Publié: (2023)
POLAR: A Benchmark for Multilingual, Multicultural, and Multi-Event Online Polarization
par: Naseem, Usman, et autres
Publié: (2025)
par: Naseem, Usman, et autres
Publié: (2025)
Defining bias in AI-systems: Biased models are fair models
par: Lindloff, Chiara, et autres
Publié: (2025)
par: Lindloff, Chiara, et autres
Publié: (2025)
Advancements in eHealth Data Analytics through Natural Language Processing and Deep Learning
par: Apostol, Elena-Simona, et autres
Publié: (2024)
par: Apostol, Elena-Simona, et autres
Publié: (2024)
Measuring cross-language intelligibility between Romance languages with computational tools
par: Dinu, Liviu P, et autres
Publié: (2026)
par: Dinu, Liviu P, et autres
Publié: (2026)
Ambiguity is the last thing you need
par: Chivers, Emily, et autres
Publié: (2024)
par: Chivers, Emily, et autres
Publié: (2024)
How far can bias go? Tracing bias from pretraining data to alignment
par: Thaler, Marion, et autres
Publié: (2024)
par: Thaler, Marion, et autres
Publié: (2024)
To Bias or Not to Bias: Detecting bias in News with bias-detector
par: Ghosh, Himel, et autres
Publié: (2025)
par: Ghosh, Himel, et autres
Publié: (2025)
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models
par: Salnikov, Mikhail, et autres
Publié: (2025)
par: Salnikov, Mikhail, et autres
Publié: (2025)
Actuation without production bias
par: Kirby, James, et autres
Publié: (2024)
par: Kirby, James, et autres
Publié: (2024)
Reddit is all you need: Authorship profiling for Romanian
par: Ştefănescu, Ecaterina, et autres
Publié: (2024)
par: Ştefănescu, Ecaterina, et autres
Publié: (2024)
Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models
par: Shin, Jisu, et autres
Publié: (2024)
par: Shin, Jisu, et autres
Publié: (2024)
The mutual exclusivity bias of bilingual visually grounded speech models
par: Oneata, Dan, et autres
Publié: (2025)
par: Oneata, Dan, et autres
Publié: (2025)
De-biased Multimodal Electrocardiogram Analysis
par: Li, Haitao, et autres
Publié: (2024)
par: Li, Haitao, et autres
Publié: (2024)
Fine-tuning with HED-IT: The impact of human post-editing for dialogical language models
par: Occhipinti, Daniela, et autres
Publié: (2024)
par: Occhipinti, Daniela, et autres
Publié: (2024)
B-score: Detecting biases in large language models using response history
par: Vo, An, et autres
Publié: (2025)
par: Vo, An, et autres
Publié: (2025)
Extending Multilingual Machine Translation through Imitation Learning
par: Lai, Wen, et autres
Publié: (2023)
par: Lai, Wen, et autres
Publié: (2023)
Predict the Next Word: Humans exhibit uncertainty in this task and language models _____
par: Ilia, Evgenia, et autres
Publié: (2024)
par: Ilia, Evgenia, et autres
Publié: (2024)
The in-context inductive biases of vision-language models differ across modalities
par: Allen, Kelsey, et autres
Publié: (2025)
par: Allen, Kelsey, et autres
Publié: (2025)
Talking to Machines: do you read me?
par: Rojas-Barahona, Lina M.
Publié: (2024)
par: Rojas-Barahona, Lina M.
Publié: (2024)
Inducing anxiety in large language models can induce bias
par: Coda-Forno, Julian, et autres
Publié: (2023)
par: Coda-Forno, Julian, et autres
Publié: (2023)
A closer look at how large language models trust humans: patterns and biases
par: Lerman, Valeria, et autres
Publié: (2025)
par: Lerman, Valeria, et autres
Publié: (2025)
Steps are all you need: Rethinking STEM Education with Prompt Engineering
par: Addala, Krishnasai, et autres
Publié: (2024)
par: Addala, Krishnasai, et autres
Publié: (2024)
Are you going to finish that? A Practical Study of the Partial Token Problem
par: Xu, Hao, et autres
Publié: (2026)
par: Xu, Hao, et autres
Publié: (2026)
Documents similaires
-
What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets
par: Stranisci, Marco Antonio, et autres
Publié: (2025) -
That is Unacceptable: the Moral Foundations of Canceling
par: Lo, Soda Marem, et autres
Publié: (2025) -
Can NLP Tackle Hate Speech in the Real World? Stakeholder-Informed Feedback and Survey on Counterspeech
par: Dinkar, Tanvi, et autres
Publié: (2025) -
Wikibio: a Semantic Resource for the Intersectional Analysis of Biographical Events
par: Stranisci, Marco Antonio, et autres
Publié: (2023) -
Dealing with Controversy: An Emotion and Coping Strategy Corpus Based on Role Playing
par: Troiano, Enrica, et autres
Publié: (2024)