Spaces:

jordigonzm
/

Llama-2-13B

Sleeping

App Files Files Community

jordigonzm commited on 15 days ago

Commit

fc439e1

•

1 Parent(s): 2728c6d

chatbot con streaming

Browse files

Files changed (1) hide show

app.py +8 -6

app.py CHANGED Viewed

@@ -67,14 +67,14 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     print(f'Mensaje: {message}')
     print(f'Historia: {history}')
-    # Limpieza de la historia para evitar pares con 'None'
     cleaned_history = [[prompt, answer if answer is not None else ""] for prompt, answer in history]
     # Verificar y asignar pad_token_id si es None
     if tokenizer.pad_token_id is None:
         tokenizer.pad_token_id = tokenizer.eos_token_id
-    stop = StopOnTokens()
     # Preparar los input_ids y manejar la máscara de atención
     input_ids = tokenizer.encode(message, return_tensors='pt').to(next(model.parameters()).device)
@@ -83,7 +83,7 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     generate_kwargs = dict(
         input_ids=input_ids,
-        attention_mask=attention_mask,  # Añadir máscara de atención
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
@@ -91,7 +91,7 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         temperature=temperature,
         repetition_penalty=1.1,
         stopping_criteria=StoppingCriteriaList([stop]),
-        pad_token_id=tokenizer.eos_token_id  # Establecer pad_token_id
     )
     # Ejecutar la generación de tokens en un hilo separado
@@ -103,7 +103,9 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     for new_token in streamer:
         if new_token:
             buffer += new_token
-            # Formatear la respuesta en un formato compatible con Gradio: [[Mensaje del usuario, Respuesta del bot]]
             yield cleaned_history + [[message, buffer]]

     print(f'Mensaje: {message}')
     print(f'Historia: {history}')
+    # Limpieza del historial para evitar pares con 'None'
     cleaned_history = [[prompt, answer if answer is not None else ""] for prompt, answer in history]
+    stop = StopOnTokens()
     # Verificar y asignar pad_token_id si es None
     if tokenizer.pad_token_id is None:
         tokenizer.pad_token_id = tokenizer.eos_token_id
     # Preparar los input_ids y manejar la máscara de atención
     input_ids = tokenizer.encode(message, return_tensors='pt').to(next(model.parameters()).device)
     generate_kwargs = dict(
         input_ids=input_ids,
+        attention_mask=attention_mask,
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
         repetition_penalty=1.1,
         stopping_criteria=StoppingCriteriaList([stop]),
+        pad_token_id=tokenizer.pad_token_id
     )
     # Ejecutar la generación de tokens en un hilo separado
     for new_token in streamer:
         if new_token:
             buffer += new_token
+            # Asegúrate de que solo estás trabajando con texto puro
+            buffer = buffer.strip()  # Eliminar espacios innecesarios
+            # Emitir el texto acumulado en un formato compatible con Gradio: [[Mensaje del usuario, Respuesta del bot]]
             yield cleaned_history + [[message, buffer]]