Nano-BEIR: A Multilingual Information Retrieval Benchmark with Quality-Enhanced Queries

Post Details

Company

HuggingFace

Date Published

Dec. 22, 2025

Author

KuKu

Word Count

1,274

Company Posts That Month

48

Language

-

Hacker News Points

-

Source URL

huggingface.co/blog/sionic-ai/eval-sionic-nano-beir

Summary

Nano-BEIR, a multilingual information retrieval benchmark, has been introduced to address the limitations of existing datasets by covering five languages—English, Korean, Japanese, Thai, and Vietnamese—with 649 queries across 13 diverse retrieval tasks. This benchmark improves query quality by employing a two-phase preprocessing pipeline that converts informal statements into proper retrieval queries, particularly enhancing support for underrepresented languages like Thai and Vietnamese through high-quality translation. The benchmark enables a comprehensive evaluation of eight embedding models, revealing insights into language-specific performance differences and the persistent English-centric bias in training data. By providing publicly available datasets, Nano-BEIR facilitates reproducible research and supports advancements in multilingual IR systems.

Trends Found in this Post

Trend	Post Mentions	Total Month Mentions	Posts	Companies	MoM
Vector Search	10	1,445	313	116	+11%
LLM	2	3,775	638	202	-32%