我从 Huggingface 导入的 LLM 在 Google Colab 上运行非常缓慢

The LLM I have imported from Huggingface is running very slowly on Google Colab

提问人:cam59 提问时间:11/16/2023 更新时间:11/16/2023 访问量:26

问:

我正在我的 Google Colab 帐户中运行以下代码片段中包含的代码

https://huggingface.co/quantumaikr/llama-2-70b-fb16-korean

代码在这里。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("quantumaikr/llama-2-70b-fb16-korean")
model =     AutoModelForCausalLM.from_pretrained("quantumaikr/llama-2-70b-fb16-korean",   torch_dtype=torch.float16, device_map="auto")

system_prompt = "### System:\\n귀하는 지시를 매우 잘 따르는 AI인 QuantumLM입니다. 최대한 많이 도와주세요. 안전에 유의하고 불법적인 행동은 하지 마세요.\\n\\n"

message = "인공지능이란 무엇인가요?"
prompt = f"{system_prompt}### User: {message}\\n\\n### Assistant:\\n"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(\*\*inputs, do_sample=True, temperature=0.9, top_p=0.75, max_new_tokens=4096)

print(tokenizer.decode(output\[0\], skip_special_tokens=True))` `

我有一个 Google Pro Plus 帐户,并且正在使用 T4 TPU。当我通过 AutoModelForCausalLM.from_pretrained 命令导入安全张量时,这几乎占用了我在 Colab 上的所有磁盘空间,这导致后续代码运行非常慢。但是,当我挂载到我的 Google Drive 并将张量缓存在那里时,这也会导致代码运行缓慢!

我做错了什么?此代码似乎不太可能无法在 Colab 上运行。

google-colaboratory 大型语言模型

评论


答: 暂无答案