Spaces:

BIBLETUM
/

Audio_itits

Sleeping

App Files Files Community

BIBLETUM commited on Oct 28

Commit

3e0bb46

verified ·

1 Parent(s): 5b46cf5

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -10

app.py CHANGED Viewed

@@ -7,7 +7,6 @@ import numpy as np
 import pandas as pd
 import gradio as gr
-# === Utils ===
 OUTDIR = Path("outputs")
 OUTDIR.mkdir(parents=True, exist_ok=True)
@@ -36,7 +35,6 @@ def save_wav(path: Path, sr: int, audio):
     wav.write(str(path), int(sr), a)
-# === Lazy model registry ===
 MODEL_NAMES = {
     "suno/bark-small": "bark",
     "facebook/mms-tts-rus": "mms",
@@ -44,13 +42,12 @@ MODEL_NAMES = {
 }
 _model_cache: Dict[str, object] = {}
-_device_hint = "auto"  # for pipelines; Seamless picks cpu/gpu inside
 def _load_bark():
     from transformers import pipeline
     pipe = pipeline("text-to-speech", model="suno/bark-small", device_map=_device_hint)
-    # Bark иногда не имеет pad_token_id
     if getattr(pipe.model.config, "pad_token_id", None) is None:
         pipe.model.config.pad_token_id = pipe.model.config.eos_token_id
@@ -78,22 +75,26 @@ def _load_seamless():
     import torch
     import numpy as np
     from transformers import AutoProcessor
-    # ВНИМАНИЕ: импорт класса модели из подмодуля transformers
     from transformers.models.seamless_m4t_v2.modeling_seamless_m4t_v2 import (
         SeamlessM4Tv2Model,
     )
     device = "cuda" if torch.cuda.is_available() else "cpu"
-    proc = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
     model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large").to(device)
-    def generate(text: str) -> Tuple[int, np.ndarray]:
         inputs = proc(text=text, src_lang="rus", return_tensors="pt")
         inputs = {k: v.to(device) for k, v in inputs.items()}
         with torch.no_grad():
             audio = model.generate(**inputs, tgt_lang="rus")[0]
         audio = audio.detach().cpu().numpy().squeeze().astype(np.float32)
-        return 16000, audio  # Seamless выдаёт 16kHz
     return generate
@@ -113,7 +114,6 @@ def get_generator(kind: str):
     return gen
-# === Inference ===
 DEFAULT_PROMPTS = (
     "Привет! Это короткий тест русского TTS.\n"
     "Сегодня мы проверяем интонации, паузы и четкость дикции.\n"
@@ -175,7 +175,6 @@ def run_tts(
     return file_paths, df, last_audio_payload
-# === UI ===
 description_md = (
     """
     Russian TTS Bench: выберите модель и введите один или несколько промптов.\

 import pandas as pd
 import gradio as gr
 OUTDIR = Path("outputs")
 OUTDIR.mkdir(parents=True, exist_ok=True)
     wav.write(str(path), int(sr), a)
 MODEL_NAMES = {
     "suno/bark-small": "bark",
     "facebook/mms-tts-rus": "mms",
 }
 _model_cache: Dict[str, object] = {}
+_device_hint = "auto"
 def _load_bark():
     from transformers import pipeline
     pipe = pipeline("text-to-speech", model="suno/bark-small", device_map=_device_hint)
     if getattr(pipe.model.config, "pad_token_id", None) is None:
         pipe.model.config.pad_token_id = pipe.model.config.eos_token_id
     import torch
     import numpy as np
     from transformers import AutoProcessor
     from transformers.models.seamless_m4t_v2.modeling_seamless_m4t_v2 import (
         SeamlessM4Tv2Model,
     )
     device = "cuda" if torch.cuda.is_available() else "cpu"
+    # КЛЮЧЕВОЕ: use_fast=False, чтобы не требовался tiktoken
+    proc = AutoProcessor.from_pretrained(
+        "facebook/seamless-m4t-v2-large",
+        use_fast=False
+    )
     model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large").to(device)
+    def generate(text: str):
         inputs = proc(text=text, src_lang="rus", return_tensors="pt")
         inputs = {k: v.to(device) for k, v in inputs.items()}
         with torch.no_grad():
             audio = model.generate(**inputs, tgt_lang="rus")[0]
         audio = audio.detach().cpu().numpy().squeeze().astype(np.float32)
+        return 16000, audio
     return generate
     return gen
 DEFAULT_PROMPTS = (
     "Привет! Это короткий тест русского TTS.\n"
     "Сегодня мы проверяем интонации, паузы и четкость дикции.\n"
     return file_paths, df, last_audio_payload
 description_md = (
     """
     Russian TTS Bench: выберите модель и введите один или несколько промптов.\