Lajavaness
/

bilingual-document-embedding

Sentence Similarity

sentence-transformers

feature-extraction

sentence-embedding

Eval Results (legacy)

Model card Files Files and versions

dangvantuan commited on Nov 21, 2024

Commit

40ac503

·

verified ·

1 Parent(s): b51d203

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ tags:
 - sentence-embedding
 - mteb
 model-index:
-- name: bilingual-embedding-large-8k
   results:
   - task:
       type: Clustering
@@ -1527,9 +1527,9 @@ metrics:
 - spearmanr
 ---
-# [bilingual-embedding-large](https://huggingface.co/Lajavaness/bilingual-embedding-large)
-bilingual-embedding is the Embedding Model for bilingual language: french and english. This model is a specialized sentence-embedding trained specifically for the bilingual language, leveraging the robust capabilities of [BGE M3](https://huggingface.co/BAAI/bge-m3), a pre-trained language model larged on the [BGE M3](https://huggingface.co/BAAI/bge-m3) architecture. The model utilizes xlm-roberta to encode english-french sentences into a 1024-dimensional vector space, facilitating a wide range of applications from semantic search to text clustering. The embeddings capture the nuanced meanings of english-french sentences, reflecting both the lexical and contextual layers of the language.
 ## Full Model Architecture
@@ -1568,7 +1568,7 @@ from sentence_transformers import SentenceTransformer
 sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]
-model = SentenceTransformer('Lajavaness/bilingual-embedding-large-8k', trust_remote_code=True)
 print(embeddings)
 ```

 - sentence-embedding
 - mteb
 model-index:
+- name: bilingual-document-embedding
   results:
   - task:
       type: Clustering
 - spearmanr
 ---
+# [bilingual-document-embedding](https://huggingface.co/Lajavaness/bilingual-document-embedding)
+bilingual-document-embedding is the Embedding Model for document in bilingual language: french and english with context length up to 8096 tokens . This model is a specialized sentence-embedding trained specifically for the bilingual language, leveraging the robust capabilities of [BGE M3](https://huggingface.co/BAAI/bge-m3), a pre-trained language model larged on the [BGE M3](https://huggingface.co/BAAI/bge-m3) architecture. The model utilizes xlm-roberta to encode english-french sentences into a 1024-dimensional vector space, facilitating a wide range of applications from semantic search to text clustering. The embeddings capture the nuanced meanings of english-french sentences, reflecting both the lexical and contextual layers of the language.
 ## Full Model Architecture
 sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]
+model = SentenceTransformer('Lajavaness/bilingual-document-embedding', trust_remote_code=True)
 print(embeddings)
 ```