Spaces:

jordigonzm
/

Llama-2-13B

Sleeping

App Files Files Community

jordigonzm commited on 15 days ago

Commit

45a2312

•

1 Parent(s): 98ba4d0

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -33

app.py CHANGED Viewed

@@ -4,47 +4,37 @@ import time
 # Cargar el token desde la variable de entorno
 token = os.environ.get("HUGGINGFACE_HUB_TOKEN")
-# Asegúrate de que el token esté presente
-if not token:
-    print("Error: No se encontró el token HUGGINGFACE_HUB_TOKEN en las variables de entorno.")
-    exit(1)
-# Crear el cliente de inferencia para el modelo Meta-Llama-3-8B-Instruct
 try:
-    client_llama = InferenceClient(
-        model="meta-llama/Meta-Llama-3-8B-Instruct",
-        token=token
     )
-    print("Cliente de inferencia creado correctamente.")
 except Exception as e:
-    print(f"Error al crear el cliente de inferencia: {e}")
     exit(1)
 # Función para procesar la entrada y generar la respuesta
 def generate_response(text):
-    try:
-        # Realizar la inferencia utilizando el cliente
-        output = client_llama(text, max_length=512, num_return_sequences=1)
-        # Formatear la respuesta en un formato similar a OpenAI
-        response = {
-            "choices": [
-                {
-                    "text": output['generated_text'],
-                    "index": 0,
-                    "logprobs": None,
-                    "finish_reason": "stop"
-                }
-            ],
-            "id": "req-12345",  # Reemplazar con un ID único
-            "model": "meta-llama/Meta-Llama-3-8B-Instruct",
-            "created": int(time.time())
-        }
-        return response
-    except Exception as e:
-        print(f"Error al generar la respuesta: {e}")
-        return {"error": str(e)}
 # Configuración de la interfaz Gradio
 import gradio as gr

 # Cargar el token desde la variable de entorno
 token = os.environ.get("HUGGINGFACE_HUB_TOKEN")
+model_name = "google/gemma-2-27b-it"
 try:
+    generator = pipeline(
+        "text-generation",
+        model=model_name,
+        device=0 if torch.cuda.is_available() else -1,
+        use_auth_token=token
     )
+    print("Modelo cargado correctamente.")
 except Exception as e:
+    print(f"Error al cargar el modelo: {e}")
     exit(1)
 # Función para procesar la entrada y generar la respuesta
 def generate_response(text):
+    output = generator(text, max_length=512, num_return_sequences=1)
+    response = {
+        "choices": [
+            {
+                "text": output[0]['generated_text'],
+                "index": 0,
+                "logprobs": None,
+                "finish_reason": "stop"
+            }
+        ],
+        "id": "req-12345",  # Reemplazar con un ID único
+        "model": model_name,
+        "created": int(time.time())
+    }
+    return response
 # Configuración de la interfaz Gradio
 import gradio as gr