Spaces:

GroveStreet
/

GTAVC_SOVITS

Running

App Files Files Community

Katock commited on Nov 19, 2023

Commit

3ad3198

•

1 Parent(s): fe495ec

内存优化

Browse files

Files changed (3) hide show

.gitignore +2 -0
app.py +8 -13
inference/infer_tool.py +3 -7

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+
2	+ *.pyc

app.py CHANGED Viewed

@@ -2,16 +2,17 @@ import argparse
 import logging
 import os
 import re
-import subprocess
-import gradio.processing_utils as gr_pu
 import gradio as gr
 import librosa
 import numpy as np
 import soundfile
 from scipy.io import wavfile
-import edge_tts
-import tempfile
 from inference.infer_tool import Svc
 logging.getLogger('numba').setLevel(logging.WARNING)
@@ -28,6 +29,8 @@ tts_voice = {
     "英文女": "en-US-AnaNeural"
 }
 def create_fn(model, spk):
     def svc_fn(input_audio, vc_transform, auto_f0, f0p):
@@ -39,6 +42,7 @@ def create_fn(model, spk):
             audio = librosa.to_mono(audio.transpose(1, 0))
         temp_path = "temp.wav"
         soundfile.write(temp_path, audio, sr, format="wav")
         out_audio = model.slice_inference(raw_audio_path=temp_path,
                                           spk=spk,
                                           slice_db=-40,
@@ -58,15 +62,6 @@ def create_fn(model, spk):
         input_text = re.sub(r"[\n\,\(\) ]", "", input_text)
         voice = tts_voice[gender]
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
-        # temp_path = "temp.wav"
-        # p = subprocess.Popen("edge-tts " +
-        #                      " --text " + input_text +
-        #                      " --write-media " + temp_path +
-        #                      " --voice " + voice +
-        #                      " --rate=" + ratestr, shell=True,
-        #                      stdout=subprocess.PIPE,
-        #                      stdin=subprocess.PIPE)
-        # p.wait()
         communicate = edge_tts.Communicate(text=input_text,
                                            voice=voice,
                                            rate=ratestr)

 import logging
 import os
 import re
+import tempfile
+import edge_tts
 import gradio as gr
+import gradio.processing_utils as gr_pu
 import librosa
 import numpy as np
 import soundfile
 from scipy.io import wavfile
+import utils
 from inference.infer_tool import Svc
 logging.getLogger('numba').setLevel(logging.WARNING)
     "英文女": "en-US-AnaNeural"
 }
+hubert_model = utils.get_speech_encoder("vec768l12", device="cpu")
 def create_fn(model, spk):
     def svc_fn(input_audio, vc_transform, auto_f0, f0p):
             audio = librosa.to_mono(audio.transpose(1, 0))
         temp_path = "temp.wav"
         soundfile.write(temp_path, audio, sr, format="wav")
+        model.hubert_model = hubert_model
         out_audio = model.slice_inference(raw_audio_path=temp_path,
                                           spk=spk,
                                           slice_db=-40,
         input_text = re.sub(r"[\n\,\(\) ]", "", input_text)
         voice = tts_voice[gender]
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
         communicate = edge_tts.Communicate(text=input_text,
                                            voice=voice,
                                            rate=ratestr)

inference/infer_tool.py CHANGED Viewed

@@ -172,13 +172,9 @@ class Svc(object):
                 self.shallow_diffusion = self.only_diffusion = False
         # load hubert and model
-        if not self.only_diffusion:
-            self.load_model(spk_mix_enable)
-            self.hubert_model = utils.get_speech_encoder(self.speech_encoder, device=self.dev)
-            self.volume_extractor = utils.Volume_Extractor(self.hop_size)
-        else:
-            self.hubert_model = utils.get_speech_encoder(self.diffusion_args.data.encoder, device=self.dev)
-            self.volume_extractor = utils.Volume_Extractor(self.diffusion_args.data.block_size)
         if os.path.exists(cluster_model_path):
             if self.feature_retrieval:

                 self.shallow_diffusion = self.only_diffusion = False
         # load hubert and model
+        self.load_model(spk_mix_enable)
+        # self.hubert_model = utils.get_speech_encoder(self.speech_encoder, device=self.dev)
+        self.volume_extractor = utils.Volume_Extractor(self.hop_size)
         if os.path.exists(cluster_model_path):
             if self.feature_retrieval: