Edit model card

Roberta base model trained on Azerbaijani subset of OSCAR corpus.

Usage

from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani")

model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani")
from transformers import pipeline
model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani')
model_mask("Le tweet <mask>.")

Examples


fill_mask("azərtac xəbər <mask> ki")
[{'sequence': 'azərtac xəbər verir ki',
  'score': 0.9791690707206726,
  'token': 1053,
  'token_str': ' verir'},
 {'sequence': 'azərtac xəbər verib ki',
  'score': 0.004408467561006546,
  'token': 2313,
  'token_str': ' verib'},
 {'sequence': 'azərtac xəbər yayıb ki',
  'score': 0.00216124439612031,
  'token': 6580,
  'token_str': ' yayıb'},
 {'sequence': 'azərtac xəbər agentliyi ki',
  'score': 0.0014381826622411609,
  'token': 14711,
  'token_str': ' agentliyi'},
 {'sequence': 'azərtac xəbəraz ki',
  'score': 0.0012858203845098615,
  'token': 320,
  'token_str': 'az'}]
fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver")
[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver',
  'score': 0.5982716083526611,
  'token': 716,
  'token_str': ' daha'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver',
  'score': 0.1061108186841011,
  'token': 374,
  'token_str': ' bir'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver',
  'score': 0.05577299743890762,
  'token': 1331,
  'token_str': ' biri'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver',
  'score': 0.029407601803541183,
  'token': 745,
  'token_str': ' ən'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver',
  'score': 0.011952652595937252,
  'token': 524,
  'token_str': ' çox'}]

Config

attention_probs_dropout_prob:0.1
bos_token_id:0
classifier_dropout:null
eos_token_id:2
gradient_checkpointing:false
hidden_act:"gelu"
hidden_dropout_prob:0.1
hidden_size:768
initializer_range:0.02
intermediate_size:3072
layer_norm_eps:1e-12
max_position_embeddings:514
model_type:"roberta"
num_attention_heads:12
num_hidden_layers:6
pad_token_id:1
position_embedding_type:"absolute"
torch_dtype:"float32"
transformers_version:"4.10.0"
type_vocab_size:1
use_cache:true
vocab_size:52000
Downloads last month
5
Inference API
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train iamdenay/roberta-azerbaijani