Spaces:

Mikunono
/

Rally_ChatBot

Paused

Mikunono commited on Mar 20

Commit

2096aa8

•

1 Parent(s): 928fb21

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,26 +47,19 @@ import librosa
 ########################ASR model###############################
-from transformers import WhisperProcessor, WhisperForConditionalGeneration
-# load model and processor
-processor = WhisperProcessor.from_pretrained("openai/whisper-base")
-model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
-model.config.forced_decoder_ids = None
-sample_rate = 16000
-def ASR_model(audio, sr=16000):
-    DB_audio = audio
-    input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features
-    # generate token ids
-    predicted_ids = model.generate(input_features)
-    # decode token ids to text
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    return transcription
@@ -82,7 +75,7 @@ def print_like_dislike(x: gr.LikeData):
 def upfile(files):
     x = librosa.load(files, sr=16000)
     print(x[0])
-    text = ASR_model(x[0])
     return [text[0], text[0]]
 def transcribe(audio):

 ########################ASR model###############################
+from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor
+model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr").to("cuda")
+processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr", do_upper_case=True)
+def RallyListen(audio):
+    features = processor(audio, sampling_rate=16000, padding=True, return_tensors="pt")
+    input_features = features.input_features.to("cuda")
+    attention_mask = features.attention_mask.to("cuda")
+    gen_tokens = model.generate(input_features=input_features, attention_mask=attention_mask)
+    ret = processor.batch_decode(gen_tokens, skip_special_tokens=True)
+    return ret
 def upfile(files):
     x = librosa.load(files, sr=16000)
     print(x[0])
+    text = RallyListen(x[0])
     return [text[0], text[0]]
 def transcribe(audio):