Publications

See my full list of papers on Google Scholar.

Knowledge-Intensive Video Generation
Chenxu Wang, Mingda Chen
arXiv Preprint, 2026
arXiv / Code

Procedural Knowledge at Scale Improves Reasoning
Di Wu, Devendra Singh Sachan, Scott Wen-tau Yih, Mingda Chen
arXiv Preprint, 2026
arXiv / Code

FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality
Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Wen-tau Yih
arXiv Preprint, 2025
arXiv / Dataset

😈ImpRAG: Retrieval-Augmented Generation with Implicit Queries
Wenzheng Zhang, Victoria Lin, Karl Stratos, Scott Wen-tau Yih, Mingda Chen
Findings of EMNLP, 2025
arXiv

Improving Factuality with Explicit Working Memory
Mingda Chen, Yang Li, Karthik Padthe, Rulin Shao, Alicia Sun, Luke Zettlemoyer, Gargi Ghosh, Scott Wen-tau Yih
Proceedings of ACL, 2025
arXiv / BibTex

Characterizing and Efficiently Accelerating Multimodal Generation Model Inference
Yejin Lee, Alicia Golden, Anna Sun, Basil Hosmer, Bilge Acun, Can Balioglu, Changhan Wang, Charles David Hernandez, Christian Puhrsch, Daniel Haziza, Driss Guessous, Francisco Massa, Jacob Kahn, Jeffrey Wan, Jeremy Reizenstein, Jiaqi Zhai, Joe Isaacson, Joel Schlosser, Juan Pino, Kaushik Ram Sadagopan, Leonid Shamis, Linjian Ma, Min-Jae Hwang, Mingda Chen, Mostafa Elhoushi, Pedro Rodriguez, Ram Pasunuru, Samuel Hsia, Scott Yih, Sravya Popuri, Xing Liu, and Carole-Jean Wu
IEEE Micro, 2025
arXiv

Few-Shot Data Synthesis for Open-Domain Multi-Hop Question Answering
Mingda Chen, Xilun Chen, Scott Wen-tau Yih
Proceedings of EACL, 2024 (Oral)
arXiv / BibTex

RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Victoria Lin*, Xilun Chen*, Mingda Chen*, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Wen-tau Yih
Proceedings of ICLR, 2023
arXiv / BibTex

Findings of the IWSLT 2023 Evaluation Campaign
Milind Agarwal, Sweta Agrawal, Antonios Anastasopoulos, Luisa Bentivogli, Ondrej Bojar, Claudia Borg, Marine Carpuat, Roldano Cattoni, Mauro Cettolo, Mingda Chen, William Chen, Khalid Choukri, Alexandra Chronopoulou, Anna Currey, Thierry Declerck, Qianqian Dong, Kevin Duh, Yannick Estève, Marcello Federico, Souhir Gahbiche, Barry Haddow, Benjamin Hsu, Phu Mon Htut, Hirofumi Inaguma, Dávid Javorský, John Judge, Yasumasa Kano, Tom Ko, Rishu Kumar, Pengwei Li, Xutai Ma, Prashant Mathur, Evgeny Matusov, Paul McNamee, John P. McCrae, Kenton Murray, Maria Nadejde, Satoshi Nakamura, Matteo Negri, Ha Nguyen, Jan Niehues, Xing Niu, Atul Kr. Ojha, John E. Ortega, Proyag Pal, Juan Pino, Lonneke van der Plas, Peter Polák, Elijah Rippeth, Elizabeth Salesky, Jiatong Shi, Matthias Sperber, Sebastian Stüker, Katsuhito Sudoh, Yun Tang, Brian Thompson, Kevin Tran, Marco Turchi, Alex Waibel, Mingxuan Wang, Shinji Watanabe, and Rodolfo Zevallos
Proceedings of IWSLT, 2023
PDF / BibTex

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric
Mingda Chen, Paul-Ambroise Duquenne, Pierre Andrews, Justine Kao, Alexandre Mourachko, Holger Schwenk, Marta R. Costa-jussà
Proceedings of ACL, 2023
arXiv / BibTex

xSIM: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages
Mingda Chen*, Kevin Heffernan*, Onur Çelebi, Alexandre Mourachko, Holger Schwenk
Proceedings of ACL, 2023 (Oral)
arXiv / BibTex

Improving In-Context Few-Shot Learning via Self-Supervised Training
Mingda Chen, Jingfei Du, Ramakanth Pasunuru, Todor Mihaylov, Srini Iyer, Veselin Stoyanov, Zornitsa Kozareva
Proceedings of NAACL, 2022
arXiv / Poster / Slides / BibTex

SummScreen: A Dataset for Abstractive Screenplay Summarization
Mingda Chen, Zewei Chu, Sam Wiseman, Kevin Gimpel
Proceedings of ACL, 2022 (Oral)
arXiv / Poster / Slides / Data / BibTex

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
Proceedings of ICLR, 2020 (Spotlight)
arXiv / Code / BibTex

How to Ask Better Questions? A Large-Scale Multi-Domain Dataset for Rewriting Ill-Formed Questions
Zewei Chu, Mingda Chen*, Jing Chen*, Miaosen Wang*, Kevin Gimpel, Manaal Faruqui, Xiance Si
Proceedings of AAAI, 2020 (Oral)
arXiv / Data / BibTex

EntEval: A Holistic Evaluation Benchmark for Entity Representations
Mingda Chen*, Zewei Chu*, Yang Chen, Karl Stratos, Kevin Gimpel
Proceedings of EMNLP, 2019
arXiv / Poster / Code / BibTex

Variational Sequential Labelers for Semi-Supervised Learning
Mingda Chen, Qingming Tang, Karen Livescu, Kevin Gimpel
Proceedings of EMNLP, 2018 (Oral)
PDF / Appendix / Slides / Code / BibTex