提问人:Gha 提问时间:10/25/2023 最后编辑:Guapi-zhGha 更新时间:10/26/2023 访问量:112
NameError:Python 代码中未定义名称“tokenize_and_split_data”
NameError: name 'tokenize_and_split_data' is not defined in Python code
问:
我想将数据分为变量。该函数不起作用,库未定义。我正在研究 Python google colab。train_dataset
test_dataset
tokenize_and_split_data
utilities
import datasets
import tempfile
import logging
import random
import config
import os
import yaml
import time
import torch
import transformers
import pandas as pd
import jsonlines
#from utilities import *
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM
from transformers import TrainingArguments
from transformers import AutoModelForCausalLM
logger = logging.getLogger(__name__)
global_config = None
model_name = "EleutherAI/pythia-70m"
training_config = {
"model": {
"pretrained_name": model_name,
"max_length" : 2048
},
"datasets": {
"use_hf": use_hf,
"path": dataset_path
},
"verbose": True
}
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
train_dataset, test_dataset = tokenize_and_split_data(training_config, tokenizer)
print(train_dataset)
print(test_dataset)
上面是代码,我无法安装库,并且没有定义这个函数。你能帮帮我吗?utilities
tokenize_and_split_data
答:
0赞
mike jay
10/26/2023
#1
从这里下载“utilities.py”并将其粘贴到名为“...\Lib\site-packages”的 python 文件夹中,您可以通过“cmd”命令“python -v”找到此路径。
评论
0赞
Gha
10/26/2023
库导入成功,但此功能tokenize_and_split_data仍然不起作用
1赞
Kim Noël
11/29/2023
#2
如果您在微调时从 Lamini 运行协作,则有一个包含此方法的 python 文件 utilities.py。只需重新创建此文件或将所有方法复制粘贴到单元格中即可。
$ ls
05_Training_lab_student.ipynb lamini_docs.jsonl utilities.py
__pycache__ lamini_docs_3_steps
$ cat utilities.py
评论