Spaces:

jordigonzm
/

Llama-2-13B

Sleeping

App Files Files Community

jordigonzm commited on 15 days ago

Commit

e89bb60

•

1 Parent(s): 513fb7b

actualizacion

Browse files

Files changed (1) hide show

app.py +12 -8

app.py CHANGED Viewed

@@ -65,18 +65,20 @@ class StopOnTokens(StoppingCriteria):
 def stream_chat(message: str, history: list, temperature: float, max_new_tokens: int):
     print(f'Mensaje: {message}')
     print(f'Historia: {history}')
-    conversation = []
-    for prompt, answer in history:
-        conversation.extend([{"role": "user", "content": prompt}, {"role": "assistant", "content": answer}])
     stop = StopOnTokens()
     input_ids = tokenizer.encode(message, return_tensors='pt').to(next(model.parameters()).device)
     streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
@@ -84,19 +86,21 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         temperature=temperature,
         repetition_penalty=1.1,
         stopping_criteria=StoppingCriteriaList([stop]),
-        attention_mask=input_ids.ne(tokenizer.pad_token_id).long(),  # Configurar máscara de atención
-        pad_token_id=tokenizer.eos_token_id  # Establecer pad_token_id al token de fin de secuencia
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
     buffer = ""
     for new_token in streamer:
         if new_token:
             buffer += new_token
-            # Emitir el texto acumulado en un formato que Gradio espera: ["User message", "Bot response"]
-            yield history + [[message, buffer]]
 # Configuración de la interfaz Gradio
 chatbot = gr.Chatbot(height=600, placeholder=PLACEHOLDER)

 def stream_chat(message: str, history: list, temperature: float, max_new_tokens: int):
     print(f'Mensaje: {message}')
     print(f'Historia: {history}')
+    # Limpieza de la historia para evitar pares con 'None'
+    cleaned_history = [[prompt, answer if answer is not None else ""] for prompt, answer in history]
     stop = StopOnTokens()
+    # Preparar los input_ids y manejar la máscara de atención
     input_ids = tokenizer.encode(message, return_tensors='pt').to(next(model.parameters()).device)
+    attention_mask = input_ids.ne(tokenizer.pad_token_id).long()
     streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
+        attention_mask=attention_mask,  # Añadir máscara de atención
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
         repetition_penalty=1.1,
         stopping_criteria=StoppingCriteriaList([stop]),
+        pad_token_id=tokenizer.eos_token_id  # Establecer pad_token_id
     )
+    # Ejecutar la generación de tokens en un hilo separado
     thread = Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
     buffer = ""
+    # Procesar el streaming de tokens y formatear la respuesta para Gradio
     for new_token in streamer:
         if new_token:
             buffer += new_token
+            # Formatear la respuesta en un formato compatible con Gradio: [[Mensaje del usuario, Respuesta del bot]]
+            yield cleaned_history + [[message, buffer]]
 # Configuración de la interfaz Gradio
 chatbot = gr.Chatbot(height=600, placeholder=PLACEHOLDER)