whisperspeech

Paused

Tonic commited on Jan 20

Commit

5033513

•

1 Parent(s): 20975ce

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,26 +38,14 @@ def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
-    # Normalize and convert to 2D stereo if necessary
-    with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
-        tmp_file_name = tmp_file.name
-        audio_np = audio_data_resampled.numpy()  # Convert to numpy array
-        if audio_np.max() > 1.0 or audio_np.min() < -1.0:
-            audio_np = audio_np / np.max(np.abs(audio_np))
-        if audio_np.ndim == 1:
-            audio_np = np.stack((audio_np, audio_np), axis=-1)
-        audio_np = np.int16(audio_np * 32767)
-        with wave.open(tmp_file_name, 'w') as wav_file:
-            wav_file.setnchannels(2)
-            wav_file.setsampwidth(2)
-            wav_file.setframerate(24000)
-            wav_file.writeframes(audio_np.tobytes())
-    return tmp_file_name
 with gr.Blocks() as demo:
     gr.Markdown(title)

     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
+    # Normalize audio
+    audio_np = audio_data.numpy()
+    audio_np = audio_np / np.max(np.abs(audio_np))
+    # Save to a temporary WAV file
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
+        sf.write(tmp_file.name, audio_np, 24000, 'PCM_16')
+    return tmp_file.name
 with gr.Blocks() as demo:
     gr.Markdown(title)