Edit model card

Model Card for Model ID

Model Card: German Fact-Checking Narratives

Model Summary

This model is based on MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7 and fine-tuned on the german-disinformation-narratives-synthetic dataset that contains 41 narratives frequently encountered by German fact-checkers. Each narrative has been expanded using GPT-4o to generate multiple supporting, unrelated, or contradicting text units. These expansions are presented from various perspectives, including that of a politician, an angry citizen, a conspiracy theorist, and others.

The model has been evaluated on both a synthetically generated dataset and real-world social media posts and fact-checked claims from German fact-checking organizations. The real-world dataset consists of 96 narrative-claim pairs.

Evaluation Results

Synthetic Dataset

The synthetic dataset was used to train and evaluate the model. Here are the evaluation results on the test set:

  • Eval Loss: 0.1161591187119484
  • Eval F1 (Weighted): 0.99
  • Eval F1 (Macro): 0.97
  • Eval F1 (Micro): 0.99
  • Eval Accuracy: 0.99
  • Eval Precision (Weighted): 0.99
  • Eval Recall (Weighted): 0.99

Real-World Data

The model was also evaluated on real-world social media posts and fact-checked claims from German fact-checking organizations. It was not possible to retrieve claims for all narratives and due to the nature of disinformation almost all claims are supporting a narrative rather than contradicting it. Here are the evaluation results:

  • Eval F1 (Weighted): 0.79
  • Eval F1 (Macro): 0.49
  • Eval F1 (Micro): 0.74
  • Eval Accuracy: 0.74

Detailed Class-wise Report (Real-World Data)

Below are the detailed metrics for each narrative in the real-world dataset:

narrative_id narrative precision recall f1
0 5G verursacht Krankheiten für Menschen und Tiere 0.50 0.33 0.39
1 Die Wahrheit über die Auswirkungen der Corona-Maßnahmen wird verheimlicht. 1.00 1.00 1.00
4 Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen. 0.92 0.83 0.87
5 Der WHO Pandemievertrag hebt die Souveränität von Staaten auf und führt zu einer WHO-Diktatur. 0.00 0.00 0.00
7 Gewisse Lebensmittel oder Inhaltsstoffe sind gesundheitsschädlich. 1.00 0.86 0.92
8 Leitungswasser enthält Östrogene und macht deshalb unfruchtbar 1.00 1.00 1.00
11 Ausländer bekommen mehr Leistungen vom Staat als Deutsche. 0.50 0.50 0.50
14 Ausländer sind krimineller als Deutsche und begehen mehr Straftaten. 0.00 0.00 0.00
16 Die Regierung will gezielt Migranten ins Land holen. 1.00 1.00 1.00
18 Ausreisepflichtige Migranten belegen Wohnraum in Deutschland. 1.00 1.00 1.00
19 Bargeld soll abgeschafft werden. 1.00 1.00 1.00
20 Deutschland wird von Faschisten regiert. 0.00 0.00 0.00
21 Selensky ist korrupt und drogenabhängig. 1.00 0.50 0.67
22 Hilfsgüter an die Ukraine werden in Wahrheit weggeworfen oder zerstört. 1.00 0.67 0.80
23 Die Ukraine wird von Nazis regiert 1.00 1.00 1.00
25 Die Klimadebatte ist übertrieben, denn das Wetter war früher überhaupt nicht anders. 1.00 1.00 1.00
26 Deutschlands Anteil an den weltweiten Treibhausgasemissionen ist nur sehr klein und deswegen können wir alleine gar nichts bewirken. 1.00 0.75 0.86
27 Die Wahrheit über den Klimawandel wird verheimlicht. 0.00 0.00 0.00
28 E-Mobilität ist schlechter für die Umwelt als Verbrenner Autos 1.00 1.00 1.00
29 Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerodet. 1.00 0.78 0.88
30 Naturphänomene wie Vulkanausbrüche sind schuld am Klimawandel 0.87 0.60 0.63
31 Der CO2-Beitrag des Menschen in der Luft ist so klein, dass er das Klima nicht beeinflusst 1.00 1.00 1.00
32 Wahlhelfer lassen Stimmen verschwinden. 1.00 0.50 0.67
33 Die Briefwahl ist nicht sicher und kann manipuliert werden. 1.00 1.00 1.00
34 Die Wahl ist ungültig, weil die Urne nicht versiegelt ist. 1.00 1.00 1.00
35 Die obere Ecke des Stimmzettels ist manipuliert 1.00 1.00 1.00
37 Rohmilch ist viel gesünder als erhitzte Milch. 1.00 1.00 1.00
40 Das Jobcenter zahlt Leistungen und Gegenstände wie Autos für ukrainische Geflüchtete. 0.25 0.50 0.33

Model Details

  • Model Checkpoint: MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7
  • Epochs: 9
  • Batch Size: 16
  • Learning Rate: 2e-05
  • Weight Decay: 0.1
  • Datasplit Random State: 2024
  • Eval Runtime: 139.1042
  • Eval Samples per Second: 76.432
  • Eval Steps per Second: 0.956

Usage

This model is suited for zero-shot-classification of disinformation narratives.

from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer


# Load the model
checkpoint = 'Sami92/mDeBERTa-v3-base-disinfo-narrative-nli'
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
tokenizer = AutoTokenizer.from_pretrained("MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7")
classifier = pipeline('zero-shot-classification', model=model, tokenizer=tokenizer)

# Narratives on which the model was trained
narratives = ['Leitungswasser enthält Östrogene und macht deshalb unfruchtbar',
 'Deutschlands Anteil an den weltweiten Treibhausgasemissionen ist nur sehr klein und deswegen können wir alleine gar nichts bewirken.',
 'Unsere eigenen Leute müssen leiden, weil Deutschland Geld ins Ausland schickt.',
 '5G verursacht Krankheiten für Menschen und Tiere',
 'Die Briefwahl ist nicht sicher und kann manipuliert werden.',
 'Die Wahrheit über den Klimawandel wird verheimlicht.',
 'Wahlhelfer lassen Stimmen verschwinden.',
 'Der CO2-Beitrag des Menschen in der Luft ist so klein, dass er das Klima nicht beeinflusst',
 'Die Ukraine wird von Nazis regiert',
 'Deutschland wird von Faschisten regiert.',
 'Homöopathie wirkt über den Placebo-Effekt hinaus und kann schwerwiegende Krankheiten heilen',
 'Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen.',
 'Rohmilch ist viel gesünder als erhitzte Milch.',
 'Die obere Ecke des Stimmzettels ist manipuliert',
 'Die EU kostet Deutschland nur Geld und die EWG würde reichen.',
 'Ausländer bekommen mehr Leistungen vom Staat als Deutsche.',
 'Ausländer sind krimineller als Deutsche und begehen mehr Straftaten.',
 'Gewisse Lebensmittel oder Inhaltsstoffe sind gesundheitsschädlich.',
 'Naturphänomene wie Vulkanausbrüche sind schuld am Klimawandel',
 'Ausländer werden geringer für Verbrechen bestraft als Deutsche.',
 'Die Wahrheit über die Auswirkungen der Corona-Maßnahmen wird verheimlicht.',
 'Selensky ist korrupt und drogenabhängig.',
 'Grüne Gentechnik kann Krankheiten auslösen.',
 'Die Wahrheit über die Corona-Todesopfer wird verheimlicht und ist tatsächlich niedriger.',
 'Die wahren Zahlen über Ausländerkriminalität werden verheimlicht.',
 'Bargeld soll abgeschafft werden.',
 'Die Wahl ist ungültig, weil die Urne nicht versiegelt ist.',
 'Der WHO Pandemievertrag hebt die Souveränität von Staaten auf und führt zu einer WHO-Diktatur.',
 'Hilfsgüter an die Ukraine werden in Wahrheit weggeworfen oder zerstört.',
 'Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet.',
 'Die Wahrheit über die Nebenwirkungen der Covid-19-Impfung wird verheimlicht.',
 'E-Mobilität ist schlechter für die Umwelt als Verbrenner Autos',
 'Ausreisepflichtige Migranten belegen Wohnraum in Deutschland.',
 'Das Jobcenter zahlt Leistungen und Gegenstände wie Autos für ukrainische Geflüchtete.',
 'In der Wahlkabine liegen Bleistifte aus, damit Stimmen manipuliert werden können',
 'Die Regierung will gezielt Migranten ins Land holen.',
 'Die Klimadebatte ist übertrieben, denn das Wetter war früher überhaupt nicht anders.',
 'Ausländer werden überdurchschnittflich oft als schuldunfähig eingestuft.',
 'Der Westen hat ein Friedensabkommen zwischen Russland und der Ukraine verhindert.',
 'Migranten sind wie Menschen, die in deine Wohnung kommen und den Kühlschrank leer fressen',
 'Russland will den 2+4 Vertrag kündigen, weil sich Deutschland mit Waffenlieferungen an die Ukraine nicht daran hält']

# Example input (These are mostly false claims!)
sequences_to_classify = [
    'Wer Klimaschutz sagt muss Bäume pflanzen und nicht für Windräder ganze Wälder roden!',
   'Deutschland produziert nur 0,000028 Prozent des weltweiten Kohlendioxids (CO₂) in der Luft.',
   'Liebe IMBFLINGE habt ihr euch schon die FRAGE gestellt wieso ihr KEIN BLUT mehr spenden dürft ???',
   'Für diejenigen die meinen das die aktuellen Temperaturen etwas ungewöhnliches wären. Das war vor 44 Jahren !',
   'Nach Angaben der Bundesanstalt für Arbeit sind 52,8 Prozent der Bürgergeldempfänger deutsche Staatsangehörige.',
   'Windräder zerstören die Landschaft und den Wald. Der Wald nimmt mehr Co2 auf , als ein Windrad einsparen soll.',
   'A law should be made immediately that tenants cannot be kicked out of their apartments for taking in migrants.',
   'nicht zu Lasten der Umwelt... seit wann kümmern die Grünen wieder die Umwelt? Roden ganze Wälder für Windräder.',
   'Der Stimmzettel ist ungültig, weil die obere Ecke abgeschnitten ist und die Urne sei nicht ausreichend versiegelt.',
   'Zwei der wichtigsten Maßnahmen zum Infektionsschutz sind: Abstand halten und Maske tragen. Deren Wirksamkeit ist mehrfach bewiesen worden.',
 'Stimmzettel, die gelocht oder deren Ecken beschädigt sind, sind ungültig. Ausweise werden ungültig gemacht, indem man die Ecken abschneidet. ',
 'Amerikanisches Rotes Kreuz: Geimpfte Menschen können kein Blut spenden, weil der Impfstoff ihre natürlichen Antikörper vollständig zerstört...',
 'Es gibt keinen wissenschaftlichen Nachweis dafür, dass Mobilfunkstrahlung unterhalb der geltenden Grenzwerte Menschen gesundheitlich schädigt. ',
 '5G beziehungsweise Mobilfunkstrahlung generell schadet der Gesundheit oder ist noch nicht genügend erforscht, um solchen Schaden auszuschließen.',
 'Baerbock sprach sich nicht für die Abschaffung von Bargeld aus, sondern für ein Verbot von Bargeldkäufen in großem Maßstab - etwa von Immobilien.',
 'Um das Land vor der globalen Erwärmung zu retten, hat Schottland gerade 14 Millionen Bäume abgeholzt, um Platz für 21 Windkraftanlagen zu schaffen. ',
 'Ségolène Royal hat gesagt, Wolodymyr Selenskyj ist ein Lügner und die „Geschichten“ über die Entbindungsstation in Mariupol und Butscha sind „falsch“. ',
 'Übrigens, abgesehen vom falsch gefalteten Wahlschein ist auch die Wahlurne nicht richtig zu... Damit müsste die Urne entleert und als ungültig erklärt werden...'
]



# Perform zero-shot classification
results = classifier(sequences_to_classify, candidate_labels=narratives, hypothesis_template="{}", multi_label=False)
for result in results:
    print("Text: ",result["sequence"])
    print("Narrative: ",result["labels"][0], "\n")
    
>>>
Text:  Wer Klimaschutz sagt muss Bäume pflanzen und nicht für Windräder ganze Wälder roden!
Narrative:  Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. 

Text:  Deutschland produziert nur 0,000028 Prozent des weltweiten Kohlendioxids (CO₂) in der Luft.
Narrative:  Deutschlands Anteil an den weltweiten Treibhausgasemissionen ist nur sehr klein und deswegen können wir alleine gar nichts bewirken. 

Text:  Liebe IMBFLINGE habt ihr euch schon die FRAGE gestellt wieso ihr KEIN BLUT mehr spenden dürft ???
Narrative:  In der Wahlkabine liegen Bleistifte aus, damit Stimmen manipuliert werden können #False

Text:  Für diejenigen die meinen das die aktuellen Temperaturen etwas ungewöhnliches wären. Das war vor 44 Jahren !
Narrative:  Die Klimadebatte ist übertrieben, denn das Wetter war früher überhaupt nicht anders. 

Text:  Nach Angaben der Bundesanstalt für Arbeit sind 52,8 Prozent der Bürgergeldempfänger deutsche Staatsangehörige.
Narrative:  Bargeld soll abgeschafft werden. #False

Text:  Windräder zerstören die Landschaft und den Wald. Der Wald nimmt mehr Co2 auf , als ein Windrad einsparen soll.
Narrative:  Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. 

Text:  A law should be made immediately that tenants cannot be kicked out of their apartments for taking in migrants.
Narrative:  Migranten sind wie Menschen, die in deine Wohnung kommen und den Kühlschrank leer fressen #False

Text:  nicht zu Lasten der Umwelt... seit wann kümmern die Grünen wieder die Umwelt? Roden ganze Wälder für Windräder.
Narrative:  Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. 

Text:  Der Stimmzettel ist ungültig, weil die obere Ecke abgeschnitten ist und die Urne sei nicht ausreichend versiegelt.
Narrative:  Die Briefwahl ist nicht sicher und kann manipuliert werden. #False

Text:  Zwei der wichtigsten Maßnahmen zum Infektionsschutz sind: Abstand halten und Maske tragen. Deren Wirksamkeit ist mehrfach bewiesen worden.
Narrative:  Die Wahrheit über die Corona-Todesopfer wird verheimlicht und ist tatsächlich niedriger. #False

Text:  Stimmzettel, die gelocht oder deren Ecken beschädigt sind, sind ungültig. Ausweise werden ungültig gemacht, indem man die Ecken abschneidet. 
Narrative:  Die Briefwahl ist nicht sicher und kann manipuliert werden. #False

Text:  Amerikanisches Rotes Kreuz: Geimpfte Menschen können kein Blut spenden, weil der Impfstoff ihre natürlichen Antikörper vollständig zerstört...
Narrative:  Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen. 

Text:  Es gibt keinen wissenschaftlichen Nachweis dafür, dass Mobilfunkstrahlung unterhalb der geltenden Grenzwerte Menschen gesundheitlich schädigt. 
Narrative:  Gewisse Lebensmittel oder Inhaltsstoffe sind gesundheitsschädlich. #False

Text:  5G beziehungsweise Mobilfunkstrahlung generell schadet der Gesundheit oder ist noch nicht genügend erforscht, um solchen Schaden auszuschließen.
Narrative:  5G verursacht Krankheiten für Menschen und Tiere 

Text:  Baerbock sprach sich nicht für die Abschaffung von Bargeld aus, sondern für ein Verbot von Bargeldkäufen in großem Maßstab - etwa von Immobilien.
Narrative:  Bargeld soll abgeschafft werden. 

Text:  Um das Land vor der globalen Erwärmung zu retten, hat Schottland gerade 14 Millionen Bäume abgeholzt, um Platz für 21 Windkraftanlagen zu schaffen. 
Narrative:  Windräder töten hundertausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. 

Text:  Ségolène Royal hat gesagt, Wolodymyr Selenskyj ist ein Lügner und die „Geschichten“ über die Entbindungsstation in Mariupol und Butscha sind „falsch“. 
Narrative:  Selensky ist korrupt und drogenabhängig. 

Text:  Übrigens, abgesehen vom falsch gefalteten Wahlschein ist auch die Wahlurne nicht richtig zu... Damit müsste die Urne entleert und als ungültig erklärt werden...
Narrative:  Die Wahl ist ungültig, weil die Urne nicht versiegelt ist. 

Bias, Risks, and Limitations

The model is trained on synthetic data that was generated by GPT4o and accordingly it is possible that it inherited biases from it. Furthermore, disinformation narratives are by nature harmful and contain false information about climate change, migration, elections, and other topics. We are currently running more tests but in any case it is important to include a validation step if the model is used for custom purposes.

Downloads last month
23
Safetensors
Model size
279M params
Tensor type
F32
·
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train Sami92/mDeBERTa-v3-base-disinfo-narrative-nli