Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs.

Andong Hua Kenan Tang Chenhe Gu Jindong Gu Eric Wong 0001 Yao Qin 0001 Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs. 19889-19899 2025 EMNLP https://doi.org/10.18653/v1/2025.emnlp-main.1006 conf/emnlp/2025 db/conf/emnlp/emnlp2025.html#HuaTGGWQ25 streams/conf/emnlp