在 Google Colab 上运行 RAM 过多的 LLM

Running RAM excessive LLMs on Google Colab

提问人:Sannan Yousuf 提问时间:11/15/2023 最后编辑:Sannan Yousuf 更新时间:11/16/2023 访问量:31

问:

我正在尝试运行在 Google Colabs 上命名的 LLM 我拥有的代码如下:OpenAssistant/oasst-sft-1-pythia-12b

from transformers import AutoTokenizer, AutoModelForCausalLM



MODEL_NAME = "OpenAssistant/oasst-sft-1-pythia-12b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
  MODEL_NAME,
)

input_text= """<|prompter|>"A bit of prompt here"<|endoftext|><|assistant|>"""
input_ids = tokenizer(input_text, return_tensors="pt").input_ids



text = model.generate(input_ids, max_length=256).generated_text
print(text)

问题是 Google Colab 的免费版本仅提供 12.7 GB 的 RAM。但是当我运行上述代码时,RAM 内存不足,会话崩溃,因为模型太大而无法放入 RAM。

我尝试在网络上搜索解决方案。在某些情况下,人们在训练模型时会遇到类似的问题。因此,建议的解决方案是使用较小的批量大小。

但是,在运行模型以生成文本时,有没有办法解决呢?

内存不足 google-colaboratory ram 大型语言模型

评论


答: 暂无答案