在 Google Colab 上运行 RAM 过多的 LLM-解网

问：

我正在尝试运行在 Google Colabs 上命名的 LLM 我拥有的代码如下：OpenAssistant/oasst-sft-1-pythia-12b

from transformers import AutoTokenizer, AutoModelForCausalLM



MODEL_NAME = "OpenAssistant/oasst-sft-1-pythia-12b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
  MODEL_NAME,
)

和

input_text= """<|prompter|>"A bit of prompt here"<|endoftext|><|assistant|>"""
input_ids = tokenizer(input_text, return_tensors="pt").input_ids



text = model.generate(input_ids, max_length=256).generated_text
print(text)

问题是 Google Colab 的免费版本仅提供 12.7 GB 的 RAM。但是当我运行上述代码时，RAM 内存不足，会话崩溃，因为模型太大而无法放入 RAM。

我尝试在网络上搜索解决方案。在某些情况下，人们在训练模型时会遇到类似的问题。因此，建议的解决方案是使用较小的批量大小。

但是，在运行模型以生成文本时，有没有办法解决呢？

内存不足 google-colaboratory ram 大型语言模型

在 Google Colab 上运行 RAM 过多的 LLM

Running RAM excessive LLMs on Google Colab

评论