File size: 4,885 Bytes
879a8e5
 
a554da7
 
 
 
 
b816ddc
 
 
 
a554da7
 
 
 
879a8e5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a554da7
 
 
 
 
879a8e5
 
79ebed2
 
b816ddc
879a8e5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a554da7
879a8e5
 
 
 
a554da7
879a8e5
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102


<div align="center">
  <h1>
    <font size="7">Index-1.9B-32K</font>
  </h1>
  
[Switch to English](https://huggingface.co/IndexTeam/Index-1.9B-32K/blob/main/README.md) 

[切换到中文](https://huggingface.co/IndexTeam/Index-1.9B-32K/blob/main/README_zh.md)

  
</div>



---
## 模型简介
Index-1.9B-32K 是一个仅有 1.9B 参数、却具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字的文档)。该模型专门针对 32K 以上的长文本进行了持续预训练(Continue Pre-Train)和监督微调(SFT),主要基于我们精心清洗的长文本预训练语料、自建的长文本指令集进行训练。目前,我们已在 Hugging Face 和 ModelScope 上同步开源。

Index-1.9B-32K **以极小的模型体积(体积约为GPT-4等模型的2%)实现了出色的长文本处理能力**。以下为与 GPT-4、GPT-3.5-turbo-16k 的对比评测结果:
<div style="text-align: center;">
    <img src="z-attach-pic-pk-all.png" alt="" width="700">
    <p><strong>Index-1.9B-32K与GPT-4等模型的长文本能力对比</strong></p>
</div>

Index-1.9B-32K在32K长度的大海捞针测试下,评测结果优异,如下图,评测结果只在(32K 长度,%10 深度)区域有一处黄斑(91.08分),其他范围表现优异,几乎全绿。
<div style="text-align: center;">
    <img src="z-attach-pic-needle-bench-en.png" alt="" width="900">
    <p><strong>大海捞针评测</strong></p>
</div>

## Index-1.9B-32K模型下载、使用、技术报告:
Index-1.9B-32K模型下载、使用方法、技术报告详见:

<div align="center">
<a href="https://github.com/bilibili/Index-1.9B/blob/main/Index-1.9B-32K长上下文技术报告.md" style="color:blue; font-size:30px;">
  <strong>Index-1.9B-32K长上下文技术报告.md</strong>
</a>
</div>

---
---
---


## 使用:长文本翻译&总结(Index-1.9B-32K)
- 下载仓库:
```shell
git clone https://github.com/bilibili/Index-1.9B
cd Index-1.9B
```
- 下载模型到本地.

- 使用 pip 安装依赖:

```shell
pip install -r requirements.txt
```

- 运行长文本专用的交互工具:demo/cli_long_text_demo.py
- 模型默认会读取该文件:data/user_long_text.txt,将对文本内容进行中文总结。
- 可以新建一个窗口,实时修改文件内容,模型会读取最新的文件内容并总结。

```shell
cd demo/
CUDA_VISIBLE_DEVICES=0 python cli_long_text_demo.py --model_path '/path/to/model/' --input_file_path data/user_long_text.txt
```
- 运行&交互效果(翻译并总结哔哩哔哩公司于2024.8.22发布的英文财报  --- [英文财报原文在这里](https://github.com/bilibili/Index-1.9B/tree/main/demo/data/user_long_text.txt)):
<div style="text-align: center;">
    <img src="z-attach-pic-qa-mark.png" alt="" width="1000">
    <p><strong>翻译总结(哔哩哔哩公司于2024.8.22发布的英文财报)</strong></p>
</div>


## 局限性与免责申明

Index-1.9B-32K在某些情况下可能会产生不准确、有偏见或其他令人反感的内容。模型生成内容时无法理解、表达个人观点或价值判断,其输出内容不代表模型开发者的观点和立场。因此,请谨慎使用模型生成的内容,用户在使用时应自行负责对其进行评估和验证,请勿将生成的有害内容进行传播,且在部署任何相关应用之前,开发人员应根据具体应用对模型进行安全测试和调优。

我们强烈警告不要将这些模型用于制造或传播有害信息,或进行任何可能损害公众、国家、社会安全或违反法规的活动,也不要将其用于未经适当安全审查和备案的互联网服务。我们已尽所能确保模型训练数据的合规性,但由于模型和数据的复杂性,仍可能存在无法预见的问题。如果因使用这些模型而产生任何问题,无论是数据安全问题、公共舆论风险,还是因模型被误解、滥用、传播或不合规使用所引发的任何风险和问题,我们将不承担任何责任。

## 模型开源协议

使用本仓库的源码需要遵循 [[Apache-2.0]{.underline}](https://github.com/bilibili/Index-1.9B/blob/main/LICENSE) 开源协议,使用
Index-1.9B-32K的模型权重则需要遵循[[模型许可协议]{.underline}](https://github.com/bilibili/Index-1.9B/blob/main/INDEX_MODEL_LICENSE)。

Index-1.9B-32K模型权重对学术研究**完全开放**,并且支持**免费商用**


## 引用

如果你觉得我们的工作对你有帮助,欢迎引用!


```shell
@article{Index-1.9B-32K,
        title={Index-1.9B-32K Long Context Technical Report},
        year={2024},
        url={https://github.com/bilibili/Index-1.9B/blob/main/Index-1.9B-32K_Long_Context_Technical_Report.md},
        author={Changye Yu, Tianjiao Li, Lusheng Zhang and IndexTeam}
}
```