Spaces:

raushanrajcareer
/

m_dialo_m

Running

App Files Files Community

m_dialo_m / app.py

raushanrajcareer

Update app.py

07a4da5 verified about 2 months ago

raw

history blame contribute delete

No virus

2.91 kB

	from datasets import Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
	from datafile import QL, resume_data_dict
	import streamlit as st
	from tensorflow import keras
	import tensorflow as tf


	# Load your custom data


	data = []
	for i in range(len(QL['labels'])):
	data.append({"question":QL["queries"][i], "answer":resume_data_dict[QL['labels'][i]]})

	# Create a Dataset
	dataset = Dataset.from_list(data)

	# Load the tokenizer
	tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-medium")
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	def preprocess_function(examples):
	inputs = [f"Question: {q}" for q in examples["question"]]
	model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)

	# Setup the tokenizer for targets
	with tokenizer.as_target_tokenizer():
	labels = tokenizer(examples["answer"], padding="max_length", truncation=True, max_length=128)

	model_inputs["labels"] = labels["input_ids"]
	return model_inputs

	# Apply preprocessing

	tokenized_dataset = dataset.map(preprocess_function, batched=True)


	model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-medium")
	model.resize_token_embeddings(len(tokenizer))


	# Define training arguments
	training_args = TrainingArguments(
	output_dir="./resume_bot",
	num_train_epochs=3,
	per_device_train_batch_size=2,
	per_device_eval_batch_size=2,
	warmup_steps=10,
	weight_decay=0.01,
	logging_dir="./logs",
	logging_steps=10,
	save_steps=500,
	evaluation_strategy="steps"
	)

	# Initialize the Trainer
	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=tokenized_dataset,
	eval_dataset=tokenized_dataset,
	tokenizer=tokenizer
	)

	# Train the model

	trainer.train()


	model_name = "./resume_bot" # Path to your fine-tuned model
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForCausalLM.from_pretrained(model_name)


	st.title("Resume Chatbot")

	if 'history' not in st.session_state:
	st.session_state.history = []

	user_input = st.text_input("You: ", "")

	if user_input:
	# Encode the input
	input_ids = tokenizer.encode(user_input + tokenizer.eos_token, return_tensors='pt')

	try:
	response_ids = model.generate(input_ids, max_length=1000, pad_token_id=tokenizer.eos_token_id)
	bot_response = tokenizer.decode(response_ids[0], skip_special_tokens=True)

	# Update the chat history
	st.session_state.history.append(f"You: {user_input}")
	st.session_state.history.append(f"Bot: {bot_response}")

	# Display the bot response
	st.write(f"Bot: {bot_response}")

	except Exception as e:
	st.error(f"Error generating response: {e}")

	# Add a button to clear the conversation
	if st.button("Reset Conversation"):
	st.session_state.history = []