accessible-mistral

Paused

ylacombe HF staff commited on Oct 27, 2023

Commit

9944bc3

•

1 Parent(s): 92b3c01

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -93,7 +93,7 @@ def text_to_text_translation(text, src_lang, tgt_lang):
     if src_lang == tgt_lang:
         return text
     text_inputs = processor(text = text, src_lang=src_lang, return_tensors="pt").to(device)
-    output_tokens = text_to_text_model.generate(**text_inputs, tgt_lang=tgt_lang)[0].cpu().numpy().squeeze()
     translated_text_from_text = processor.decode(output_tokens.tolist(), skip_special_tokens=True)
     return translated_text_from_text
@@ -237,14 +237,14 @@ def transcribe(numpy_array):
         array = torchaudio.functional.resample(torch.tensor(numpy_array[1]).float(), src_sr, tgt_sr)
         audio_inputs = processor(audios=array, return_tensors="pt").to(device)
-        text = speech_to_text_model.generate(**audio_inputs, tgt_lang="eng")[0].cpu().numpy().squeeze()
         text = processor.decode(text.tolist(), skip_special_tokens=True).strip()
         src_lang = detect_language_from_audio(numpy_array)
         if src_lang != "eng":
-            original_text = speech_to_text_model.generate(**audio_inputs, tgt_lang=src_lang)[0].cpu().numpy().squeeze()
             original_text = processor.decode(original_text.tolist(), skip_special_tokens=True).strip()
         else:
             original_text = text

     if src_lang == tgt_lang:
         return text
     text_inputs = processor(text = text, src_lang=src_lang, return_tensors="pt").to(device)
+    output_tokens = text_to_text_model.generate(**text_inputs, tgt_lang=tgt_lang, max_new_tokens=1024)[0].cpu().numpy().squeeze()
     translated_text_from_text = processor.decode(output_tokens.tolist(), skip_special_tokens=True)
     return translated_text_from_text
         array = torchaudio.functional.resample(torch.tensor(numpy_array[1]).float(), src_sr, tgt_sr)
         audio_inputs = processor(audios=array, return_tensors="pt").to(device)
+        text = speech_to_text_model.generate(**audio_inputs, tgt_lang="eng", max_new_tokens=1024)[0].cpu().numpy().squeeze()
         text = processor.decode(text.tolist(), skip_special_tokens=True).strip()
         src_lang = detect_language_from_audio(numpy_array)
         if src_lang != "eng":
+            original_text = speech_to_text_model.generate(**audio_inputs, tgt_lang=src_lang, max_new_tokens=1024)[0].cpu().numpy().squeeze()
             original_text = processor.decode(original_text.tolist(), skip_special_tokens=True).strip()
         else:
             original_text = text