whisperspeech

Paused

Tonic commited on Jan 20

Commit

aa13f09

•

1 Parent(s): a903ae8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,21 +37,23 @@ def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
-    # Normalize and write to a WAV file
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
         audio_np = audio_data_resampled.numpy()  # Convert to numpy array
-        # Normalize if necessary
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
-        # Ensure the audio data is 2D (num_samples, num_channels)
-        if audio_np.ndim == 1:
-            audio_np = np.expand_dims(audio_np, axis=1)
-        # Write the file
-        sf.write(tmp_file_name, audio_np, 24000)
     return tmp_file_name

     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
         audio_np = audio_data_resampled.numpy()  # Convert to numpy array
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
+        if audio_np.ndim > 1:
+            audio_np = audio_np[:,0]
+        audio_np = np.int16(audio_np * 32767)
+        with wave.open(tmp_file_name, 'w') as wav_file:
+            wav_file.setnchannels(1)
+            wav_file.setsampwidth(2)
+            wav_file.setframerate(24000)
+            wav_file.writeframes(audio_np.tobytes())
     return tmp_file_name