Spaces:

jordigonzm
/

Llama-2-13B

Sleeping

App Files Files Community

jordigonzm commited on 15 days ago

Commit

ea13124

•

1 Parent(s): 558a854

Usamos InferenceClient

Browse files

Files changed (1) hide show

app.py +41 -34

app.py CHANGED Viewed

@@ -1,55 +1,62 @@
-import gradio as gr
-from transformers import pipeline
-import torch
-import time
-from huggingface_hub import HfApi, HfFolder
 import os
 # Cargar el token desde la variable de entorno
 token = os.environ.get("HUGGINGFACE_HUB_TOKEN")
-# Cargar el modelo
-model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
-# Cargar el generador de texto con el token de autenticación
 try:
-    generator = pipeline(
-        "text-generation",
-        model=model_name,
-        device=0 if torch.cuda.is_available() else -1,
-        use_auth_token=token
     )
-    print("Modelo cargado correctamente.")
 except Exception as e:
-    print(f"Error al cargar el modelo: {e}")
     exit(1)
 # Función para procesar la entrada y generar la respuesta
 def generate_response(text):
-    output = generator(text, max_length=512, num_return_sequences=1)
-    response = {
-        "choices": [
-            {
-                "text": output[0]['generated_text'],
-                "index": 0,
-                "logprobs": None,
-                "finish_reason": "stop"
-            }
-        ],
-        "id": "req-12345",  # Reemplazar con un ID único
-        "model": model_name,
-        "created": int(time.time())
-    }
-    return response
-# Interfaz Gradio
 iface = gr.Interface(
     fn=generate_response,
     inputs="text",
     outputs="json",
     title="API compatible con OpenAI",
-    description="Introduce texto para obtener una respuesta del modelo Gemma."
 )
 # Ejecutar la interfaz
 iface.launch()

 import os
+from huggingface_hub import InferenceClient
+import time
 # Cargar el token desde la variable de entorno
 token = os.environ.get("HUGGINGFACE_HUB_TOKEN")
+# Asegúrate de que el token esté presente
+if not token:
+    print("Error: No se encontró el token HUGGINGFACE_HUB_TOKEN en las variables de entorno.")
+    exit(1)
+# Crear el cliente de inferencia para el modelo Meta-Llama-3-8B-Instruct
 try:
+    client_llama = InferenceClient(
+        model="meta-llama/Meta-Llama-3-8B-Instruct",
+        token=token
     )
+    print("Cliente de inferencia creado correctamente.")
 except Exception as e:
+    print(f"Error al crear el cliente de inferencia: {e}")
     exit(1)
 # Función para procesar la entrada y generar la respuesta
 def generate_response(text):
+    try:
+        # Realizar la inferencia utilizando el cliente
+        output = client_llama(text, max_length=512, num_return_sequences=1)
+        # Formatear la respuesta en un formato similar a OpenAI
+        response = {
+            "choices": [
+                {
+                    "text": output['generated_text'],
+                    "index": 0,
+                    "logprobs": None,
+                    "finish_reason": "stop"
+                }
+            ],
+            "id": "req-12345",  # Reemplazar con un ID único
+            "model": "meta-llama/Meta-Llama-3-8B-Instruct",
+            "created": int(time.time())
+        }
+        return response
+    except Exception as e:
+        print(f"Error al generar la respuesta: {e}")
+        return {"error": str(e)}
+# Configuración de la interfaz Gradio
+import gradio as gr
 iface = gr.Interface(
     fn=generate_response,
     inputs="text",
     outputs="json",
     title="API compatible con OpenAI",
+    description="Introduce texto para obtener una respuesta del modelo Meta-Llama-3-8B-Instruct."
 )
 # Ejecutar la interfaz
 iface.launch()