gyenist commited on
Commit
41686cb
1 Parent(s): a1547d4

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -4
README.md CHANGED
@@ -17,9 +17,7 @@ tags:
17
  ---
18
  # Model Card for Model ID
19
 
20
- <!-- Provide a quick summary of what the model is/does. -->
21
-
22
- This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).
23
 
24
  ## Model Details
25
 
@@ -39,8 +37,16 @@ This modelcard aims to be a base template for new models. It has been generated
39
 
40
  ### Model Description
41
 
42
- <!-- Provide a longer summary of what this model is. -->
 
 
 
 
 
 
43
 
 
 
44
 
45
 
46
  - **Developed by:** [More Information Needed]
 
17
  ---
18
  # Model Card for Model ID
19
 
20
+ This model can restore punctuation and auto-capitalize lower cased Hungarian text. It was trained on the Hungarian Web Corpus with over 4 million examples and 300+ million tokens.
 
 
21
 
22
  ## Model Details
23
 
 
37
 
38
  ### Model Description
39
 
40
+ I aim to fill the gap between Speech Recognition (speech2text) and downstream NLP tasks by developing a model for Automatic Punctuation Restoration (APR) in Hungarian called ‘hupunct’, that has raw unpunctuated lower-cased text as its input, and has the corrected, punctuated text as its output. The solution is based on a widely used NLP technique, which involves the finetuning of a pretrained special deep neural network, a Transformer.
41
+ The hupunct model, after training for less than one epoch on the dataset generated from the Hungarian Web Corpus reached a test micro average F1-score of 87.2% and macro average F1-score of 74,1%. The CDQ macro F1-score achieved was 83.7%. This surpasses the current state-of-the art Hungarian model, although on a different but arguably harder dataset, even with using only one prediction per token. The model learned to restore punctuations belonging to the additional base punctuation classes and all the upper versions of those classes to a reasonable extent. Additionally, it can also auto-capitalize, which is a convenient feature. See some examples showing the model capabilities in Text Box 4 and Text Box 5 of the Appendix. The finetuning of huBERT for the APR task in Hungarian proved to be a powerful and very practical approach, especially with the usage of the HF platform.
42
+
43
+ ### Examples
44
+
45
+ Input:
46
+ 'gerendai páltól a következőt idézzük gyermekkorom óta szeretem a balatont a balatoni tájak mindig is lenyűgöztek és néha néha mikor a balaton partján sétálok szívemet elönti a szeretet hogyan lehet valami ilyen szép a következő vendégünk hambuch kevin a balatonfenyvesi egyetem doktora a knorr bremse kutatás fejlesztésért felelős vezetője kevin ilyen olyan projektekben vett részt a mta val közösen majd 1999 ben alapítottak barátjával csisztapusztai arnolddal egy céget megpedíg a gránit kft t ezután kezdte meg tevékenységét a német cégnél ahol a gránit kft ben szerzett tapasztalatát kamatoztatja'
47
 
48
+ Output:
49
+ 'Gerendai Páltól a következőt idézzük: Gyermekkorom óta szeretem a Balatont. A balatoni tájak mindig is lenyűgöztek, és néha-néha, mikor a Balaton partján sétálok, szívemet elönti a szeretet. Hogyan lehet valami ilyen szép? A következő vendégünk Hambuch Kevin, a Balatonfenyvesi Egyetem doktora, a Knorr-Bremse kutatás-fejlesztésért felelős vezetője. Kevin ilyen-olyan projektekben vett részt a Mta-val közösen, majd 1999-ben alapítottak barátjával, Csisztapusztai Arnolddal egy céget, megpedíg a Gránit Kft-t. Ezután kezdte meg tevékenységét a német cégnél, ahol a Gránit Kft-ben szerzett tapasztalatát kamatoztatja.'
50
 
51
 
52
  - **Developed by:** [More Information Needed]