🇷🇺 Russian wordpiece Tokenizer 32k
Russian wordpiece Tokenizer 32k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
🧠 Описание модели
- Тип модели: Subword токенизатор (wordpiece)
- Язык: Русский
- Алгоритм: wordpiece
- Размер словаря: 32 000
- Минимальная частота: 3
- Нормализация: NFKC
- Пре-токенизация: Whitespace
📚 Корпус
Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:
(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
📊 Метрики
| Метрика | Значение | Описание |
|---|---|---|
| OOV rate | 1% | Доля слов, отсутствующих в словаре |
| Reconstruction accuracy | 0.09% | Точность восстановления исходного текста после токенизации |
| Compression ratio | 0.59 | Коэффициент сжатия корпуса |
🚀 Пример использования
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_wordpiece_tokenizer_32k")
# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)
print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support