all-MiniLM-L6-v2 vs paraphrase-multilingual-MiniLM-L12-v2

all-MiniLM-L6-v2 and paraphrase-multilingual-MiniLM-L12-v2 are both sentence-similarity models. See each entry for specifics.

all-MiniLM-L6-v2

Pipeline: sentence similarity
Downloads: 239,973,503
Likes: 4,754

Distilled BERT model that encodes sentences into 384-dimensional vectors for measuring semantic similarity. Trained on over a billion sentence pairs spanning scientific papers, web QA, NLI datasets, and community forums. At 22M parameters and 6 transformer layers, it is fast enough for CPU inference while remaining competitive on standard sentence similarity benchmarks.

paraphrase-multilingual-MiniLM-L12-v2

Pipeline: sentence similarity
Downloads: 44,875,889
Likes: 1,218

Multilingual sentence embedding model covering 50+ languages, built on a 12-layer distilled MiniLM architecture. Produces 384-dimensional vectors designed for semantic similarity and paraphrase detection across language boundaries. Trained on multilingual paraphrase data to align semantically equivalent sentences even when expressed in different languages.

Key differences

See individual model pages for architecture and use cases.

Common ground

Both are open-source models on HuggingFace.

Which should you pick?

Pick based on your compute budget and specific task requirements.