提问人:Deepak Tatyaji Ahire 提问时间:11/16/2023 最后编辑:Deepak Tatyaji Ahire 更新时间:11/17/2023 访问量:47
使用 Mistral-7B-v0.1(基本模式)进行事实检索
Fact retrieval using Mistral-7B-v0.1 (base mode)
问:
上下文
我使用 Github 上的 Chinese-LLaMA-Alpaca 存储库中提供的脚本预训练了 mistral(基础模型)。Mistral-7B-v0.1
pretrain_chinese_llama_lora.ipynb
我使用50行包含事实的文本(地点,人物,历史和地理事实)训练了文本完成任务的基础模型。
表示单个实体(如地点、人,....)事实的线条不是连续的。例如:
<fact #1 about New York>
<fact #1 about John Doe>
<fact #2 about John Doe>
<fact #1 about a river and geography>
<fact #2 about New York>
...
...
...
<fact #3 about New York>
现在,我的目标是在为文本完成任务预训练模型后,检索有关使用文本完成提示的所有事实。New York
我的观察
我看到,即使在使用多样化波束搜索解码后,该模型也无法检索与纽约相关的所有事实/上下文。
我尝试了什么?
推理的代码片段如下:
with torch.no_grad():
outputs = pt_model.generate(**model_input, max_new_tokens=100, repetition_penalty=1.15,
num_beams=15, num_beam_groups=15, diversity_penalty=2.0,
num_return_sequences=15)
model_output = tokenizer.batch_decode(outputs, skip_special_tokens=True)
为什么我没有使用数据库/ RAG:
- 我有 1000 多个 PDF 数据,我显然无法浏览并创建数据库脚本来存储我感兴趣的实体的事实。
- RAG 可能会根据相似性搜索诱导出相似(不确切)的事实,这是我想避免的。
- 我想进一步微调这个模型,以便根据我的特定用例进行问答。因此,我需要尽可能多地检索事实。
答: 暂无答案
评论