File size: 3,160 Bytes
7c4963e
d7081b7
 
 
7c4963e
7c07d77
1ad5c52
4225bca
 
 
 
 
 
 
7c4963e
 
4225bca
 
 
 
 
 
 
 
 
 
a0726b0
4225bca
 
 
 
1a1a1b5
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
---
language:
- vi
license: apache-2.0
library_name: transformers
widget:
- text: "Mục 3a . Kiểm_định chất_lượng giáo_dục <mask> 110a . Nội_dung quản_lý nhà_nước về kiểm_định chất_lượng giáo_dục 1 . Ban_hành quy_định về tiêu_chuẩn đánh_giá chất_lượng giáo_dục ; quy_trình và chu_kỳ kiểm_định chất_lượng giáo_dục ở từng cấp học và trình_độ đào_tạo ; nguyên_tắc hoạt_động , điều_kiện và tiêu_chuẩn của tổ_chức , cá_nhân hoạt_động kiểm_định chất_lượng giáo_dục ; cấp phép hoạt_động kiểm_định chất_lượng giáo_dục ; cấp , thu_hồi giấy chứng_nhận kiểm_định chất_lượng giáo_dục . 2 . Quản_lý hoạt_động kiểm_định chương_trình giáo_dục và kiểm_định cơ_sở giáo_dục . 3 . Hướng_dẫn các tổ_chức , cá_nhân và cơ_sở giáo_dục thực_hiện đánh_giá , kiểm_định chất_lượng giáo_dục ."
tags:
- legal
- roberta
- phobert
datasets:
- NghiemAbe/Legal-corpus-indexing
pipeline_tag: fill-mask
---

# Phobert Base model with Legal domain
**Experiment performed with Transformers version 4.38.2**\
Vi-Legal-PhoBert model for Legal domain based on [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2), then continued MLM pretraining for 154600 steps with token-level on [Legal Corpus](https://huggingface.co/datasets/NghiemAbe/Legal-corpus-indexing) so the model can learn to legal domain.

## Usage
Fill mask example:
```python:
from transformers import RobertaForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("NghiemAbe/Vi-Legal-PhoBert")
model = RobertaForMaskedLM.from_pretrained("NghiemAbe/Vi-Legal-PhoBert")
```

## Metric
I evaluated my [Dev-Legal-Dataset](https://huggingface.co/datasets/NghiemAbe/dev_legal) and here are the results:
| Model                         | Paramaters | Language Type | Length | R@1   | R@5   | R@10  | R@20  | R@100 | MRR@5 | MRR@10 | MRR@20 | MRR@100 | Accuracy Masked|
|-------------------------------|------------|---------------|--------|-------|-------|-------|-------|-------|-------|--------|--------|---------|---------|
| vinai/phobert-base-v2        | 125M       | vi            | 256    | 0.266 |	0.482 |	0.601 |	0.702 |	0.841 |	0.356 |	0.372 |	0.379 |	0.382 | 0.522|
| FacebookAI/xlm-roberta-base  | 279M       | mul           | 512    | 0.012 | 0.042 | 0.064 | 0.091 | 0.207 | 0.025 | 0.028  | 0.030  | 0.033   | x|
| Geotrend/bert-base-vi-cased  | 179M       | vi            | 512    | 0.098 | 0.175 | 0.202 | 0.241 | 0.356 | 0.131 | 0.136  | 0.139  | 0.142   | x|
| NlpHUST/roberta-base-vn      | x          | vi            | 512    | 0.050 | 0.097 | 0.126 | 0.163 | 0.369 | 0.071 | 0.076  | 0.078  | 0.083   | x|
| aisingapore/sealion-bert-base| x          | mul           | 512    | 0.002 | 0.007 | 0.021 | 0.036 | 0.106 | 0.003 | 0.005  | 0.006  | 0.008   | x|
| **Vi-Legal-PhoBert**             | 125M       | vi            | 256    | **0.290**|	**0.560**|	**0.707**|	**0.819**|	**0.935**|	**0.410**|	**0.430**|	**0.437**|	**0.440**|**0.8401**|