c2m / README.md

supermy

Update README.md

ac0545b almost 2 years ago

preview code

raw

history blame

No virus

5.7 kB

	---
	language: zh
	datasets: c2m
	inference:
	parameters:
	max_length: 108
	num_return_sequences: 1
	do_sample: True
	widget:
	- text: "晋太元中，武陵人捕鱼为业。缘溪行，忘路之远近。忽逢桃花林，夹岸数百步，中无杂树，芳草鲜美，落英缤纷。渔人甚异之，复前行，欲穷其林。林尽水源，便得一山，山有小口，仿佛若有光。便舍船，从口入。初极狭，才通人。复行数十步，豁然开朗。土地平旷，屋舍俨然，有良田、美池、桑竹之属。阡陌交通，鸡犬相闻。其中往来种作，男女衣着，悉如外人。黄发垂髫，并怡然自乐。"
	example_title: "桃花源记"
	- text: "往者不可谏,来者犹可追。"
	example_title: "来者犹可追"
	- text: "逝者如斯夫！不舍昼夜。"
	example_title: "逝者如斯夫"


	---


	# 文言文 to 现代文

	## Model description


	## How to use
	使用 pipeline 调用模型:

	```python
	>>> from transformers import pipeline
	>>> model_checkpoint = "supermy/c2m"
	>>> translator = pipeline("translation",
	model=model_checkpoint,
	num_return_sequences=1,
	max_length=52,
	truncation=True,)

	>>> translator("往者不可谏,来者犹可追。")
	[{'translation_text': '过去的事情不能劝谏，未来的事情还可以追回来。如果过去的事情不能劝谏，那么，未来的事情还可以追回来。如果过去的事情'}]

	>>> translator("福兮祸所伏，祸兮福所倚。",do_sample=True)
	[{'translation_text': '幸福是祸患所隐藏的，灾祸是福祸所依托的。这些都是幸福所依托的。这些都是幸福所带来的。幸福啊，也是幸福'}]

	>>> translator("成事不说，遂事不谏，既往不咎。", num_return_sequences=1,do_sample=True)
	[{'translation_text': '事情不高兴，事情不劝谏，过去的事就不会责怪。事情没有多久了，事情没有多久，事情没有多久了，事情没有多'}]

	>>> translator("逝者如斯夫！不舍昼夜。",num_return_sequences=1,max_length=30)
	[{'translation_text': '逝去的人就像这样啊，不分昼夜地去追赶它们。这样的人就不会忘记'}]

	```
	Here is how to use this model to get the features of a given text in PyTorch:

	```python
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
	tokenizer = AutoTokenizer.from_pretrained("supermy/c2m")
	model = AutoModelForSeq2SeqLM.from_pretrained("supermy/c2m")
	text = "用你喜欢的任何文本替换我。"
	encoded_input = tokenizer(text, return_tensors='pt')
	output = model(**encoded_input)
	```



	## Training data

	非常全的文言文（古文）-现代文平行语料，基本涵盖了大部分经典古籍著作。

	原始爬取的数据是篇章级对齐，经过脚本分句（按照句号分号感叹号问号划分）以及人工校对，形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外，目录source下是文言文单语数据，target下是现代文单语数据，这两个目录下的文件内容按行对齐。

	以下为数据统计信息。其中，短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍，已和《资治通鉴》合并。

	\|书名\|句数
	\|:--\|:--\|
	短篇章和资治通鉴\|348727
	元史\|21182
	北史\|25823
	北书\|10947
	南史\|13838
	南齐书\|13137
	史记\|17701
	后汉书\|17753
	周书\|14930
	太平广记\|59358
	宋书\|23794
	宋史\|77853
	徐霞客游记\|22750
	新五代史\|10147
	新唐书\|12359
	旧五代史\|11377
	旧唐书\|29185
	明史\|85179
	晋书\|21133
	梁书\|14318
	水经注全\|11630
	汉书\|37622
	辽史\|9278
	金史\|13758
	陈书\|7096
	隋书\|8204
	魏书\|28178
	总计\|967257

	《短篇章和资治通鉴》中各书籍统计如下（此部分数据量不完全准确）：

	\|书名\|句数
	\|:--\|:--\|
	资治通鉴\|7.95w
	左传\|1.09w
	大学章句集注\| 86
	反经\| 4211
	公孙龙子\| 73
	管子\| 6266
	鬼谷子\| 385
	韩非子\| 4325
	淮南子\| 2669
	黄帝内经\| 6162
	皇帝四经\| 243
	将苑\| 100
	金刚经\| 193
	孔子家语\| 138
	老子\| 398
	了凡四训\| 31
	礼记\| 4917
	列子\| 1735
	六韬\| 693
	六祖坛经\| 949
	论语\| 988
	吕氏春秋\| 2473
	孟子\| 1654
	梦溪笔谈\| 1280
	墨子\| 2921
	千字文\| 82
	清史稿\| 1604
	三字经\| 234
	山海经\| 919
	伤寒论\| 712
	商君书\| 916
	尚书\| 1048
	世说新语\| 3044
	司马法\| 132
	搜神记\| 1963
	搜神后记\| 540
	素书\| 61
	孙膑兵法\| 230
	孙子兵法\| 338
	天工开物\| 807
	尉缭子\| 226
	文昌孝经\| 194
	文心雕龙\| 1388
	吴子\| 136
	孝经\| 102
	笑林广记\| 1496
	荀子\| 3131
	颜氏家训\| 510
	仪礼\| 2495
	易传\| 711
	逸周书\| 1505
	战国策\| 3318
	贞观政要\| 1291
	中庸\| 206
	周礼\| 2026
	周易\| 460
	庄子\| 1698
	百战奇略\| 800
	论衡\| 1.19w
	智囊\|2165
	罗织经\|188
	朱子家训\|31
	抱朴子\|217
	地藏经\|547
	国语\|3841
	容斋随笔\|2921
	幼学琼林\|1372
	三略\|268
	围炉夜话\|387
	冰鉴\|120


	如果您使用该语料库，请注明出处：https://github.com/NiuTrans/Classical-Modern

	感谢为该语料库做出贡献的成员：丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
	```
	```

	## Training procedure

	在英伟达16G显卡训练了 4 天整，共计68 次。

	[文言文数据集](https://huggingface.co/datasets/supermy/Classical-Modern) 训练数据. Helsinki-NLP [Helsinki-NLP](Helsinki-NLP/opus-mt-zh-en) 模型:


	```

	### entry and citation info

	```

	```

	---
	language: zh
	datasets: c2m
	inference:
	parameters:
	max_length: 108
	num_return_sequences: 1
	do_sample: True
	widget:
	- text: "晋太元中，武陵人捕鱼为业。缘溪行，忘路之远近。忽逢桃花林，夹岸数百步，中无杂树，芳草鲜美，落英缤纷。渔人甚异之，复前行，欲穷其林。林尽水源，便得一山，山有小口，仿佛若有光。便舍船，从口入。初极狭，才通人。复行数十步，豁然开朗。土地平旷，屋舍俨然，有良田、美池、桑竹之属。阡陌交通，鸡犬相闻。其中往来种作，男女衣着，悉如外人。黄发垂髫，并怡然自乐。"
	example_title: "桃花源记"
	- text: "往者不可谏,来者犹可追。"
	example_title: "来者犹可追"
	- text: "逝者如斯夫！不舍昼夜。"
	example_title: "逝者如斯夫"


	---


	# 文言文 to 现代文

	## Model description


	## How to use
	使用 pipeline 调用模型:

	```python
	>>> from transformers import pipeline
	>>> model_checkpoint = "supermy/c2m"
	>>> translator = pipeline("translation",
	model=model_checkpoint,
	num_return_sequences=1,
	max_length=52,
	truncation=True,)

	>>> translator("往者不可谏,来者犹可追。")
	[{'translation_text': '过去的事情不能劝谏，未来的事情还可以追回来。如果过去的事情不能劝谏，那么，未来的事情还可以追回来。如果过去的事情'}]

	>>> translator("福兮祸所伏，祸兮福所倚。",do_sample=True)
	[{'translation_text': '幸福是祸患所隐藏的，灾祸是福祸所依托的。这些都是幸福所依托的。这些都是幸福所带来的。幸福啊，也是幸福'}]

	>>> translator("成事不说，遂事不谏，既往不咎。", num_return_sequences=1,do_sample=True)
	[{'translation_text': '事情不高兴，事情不劝谏，过去的事就不会责怪。事情没有多久了，事情没有多久，事情没有多久了，事情没有多'}]

	>>> translator("逝者如斯夫！不舍昼夜。",num_return_sequences=1,max_length=30)
	[{'translation_text': '逝去的人就像这样啊，不分昼夜地去追赶它们。这样的人就不会忘记'}]

	```
	Here is how to use this model to get the features of a given text in PyTorch:

	```python
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
	tokenizer = AutoTokenizer.from_pretrained("supermy/c2m")
	model = AutoModelForSeq2SeqLM.from_pretrained("supermy/c2m")
	text = "用你喜欢的任何文本替换我。"
	encoded_input = tokenizer(text, return_tensors='pt')
	output = model(**encoded_input)
	```



	## Training data

	非常全的文言文（古文）-现代文平行语料，基本涵盖了大部分经典古籍著作。

	原始爬取的数据是篇章级对齐，经过脚本分句（按照句号分号感叹号问号划分）以及人工校对，形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外，目录source下是文言文单语数据，target下是现代文单语数据，这两个目录下的文件内容按行对齐。

	以下为数据统计信息。其中，短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍，已和《资治通鉴》合并。

	\|书名\|句数
	\|:--\|:--\|
	短篇章和资治通鉴\|348727
	元史\|21182
	北史\|25823
	北书\|10947
	南史\|13838
	南齐书\|13137
	史记\|17701
	后汉书\|17753
	周书\|14930
	太平广记\|59358
	宋书\|23794
	宋史\|77853
	徐霞客游记\|22750
	新五代史\|10147
	新唐书\|12359
	旧五代史\|11377
	旧唐书\|29185
	明史\|85179
	晋书\|21133
	梁书\|14318
	水经注全\|11630
	汉书\|37622
	辽史\|9278
	金史\|13758
	陈书\|7096
	隋书\|8204
	魏书\|28178
	总计\|967257

	《短篇章和资治通鉴》中各书籍统计如下（此部分数据量不完全准确）：

	\|书名\|句数
	\|:--\|:--\|
	资治通鉴\|7.95w
	左传\|1.09w
	大学章句集注\| 86
	反经\| 4211
	公孙龙子\| 73
	管子\| 6266
	鬼谷子\| 385
	韩非子\| 4325
	淮南子\| 2669
	黄帝内经\| 6162
	皇帝四经\| 243
	将苑\| 100
	金刚经\| 193
	孔子家语\| 138
	老子\| 398
	了凡四训\| 31
	礼记\| 4917
	列子\| 1735
	六韬\| 693
	六祖坛经\| 949
	论语\| 988
	吕氏春秋\| 2473
	孟子\| 1654
	梦溪笔谈\| 1280
	墨子\| 2921
	千字文\| 82
	清史稿\| 1604
	三字经\| 234
	山海经\| 919
	伤寒论\| 712
	商君书\| 916
	尚书\| 1048
	世说新语\| 3044
	司马法\| 132
	搜神记\| 1963
	搜神后记\| 540
	素书\| 61
	孙膑兵法\| 230
	孙子兵法\| 338
	天工开物\| 807
	尉缭子\| 226
	文昌孝经\| 194
	文心雕龙\| 1388
	吴子\| 136
	孝经\| 102
	笑林广记\| 1496
	荀子\| 3131
	颜氏家训\| 510
	仪礼\| 2495
	易传\| 711
	逸周书\| 1505
	战国策\| 3318
	贞观政要\| 1291
	中庸\| 206
	周礼\| 2026
	周易\| 460
	庄子\| 1698
	百战奇略\| 800
	论衡\| 1.19w
	智囊\|2165
	罗织经\|188
	朱子家训\|31
	抱朴子\|217
	地藏经\|547
	国语\|3841
	容斋随笔\|2921
	幼学琼林\|1372
	三略\|268
	围炉夜话\|387
	冰鉴\|120


	如果您使用该语料库，请注明出处：https://github.com/NiuTrans/Classical-Modern

	感谢为该语料库做出贡献的成员：丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
	```
	```

	## Training procedure

	在英伟达16G显卡训练了 4 天整，共计68 次。

	[文言文数据集](https://huggingface.co/datasets/supermy/Classical-Modern) 训练数据. Helsinki-NLP [Helsinki-NLP](Helsinki-NLP/opus-mt-zh-en) 模型:


	```

	### entry and citation info

	```

	```