NameError:Python 代码中未定义名称“tokenize_and_split_data”

NameError: name 'tokenize_and_split_data' is not defined in Python code

提问人:Gha 提问时间:10/25/2023 最后编辑:Guapi-zhGha 更新时间:10/26/2023 访问量:112

问:

我想将数据分为变量。该函数不起作用,库未定义。我正在研究 Python google colab。train_datasettest_datasettokenize_and_split_datautilities

import datasets
import tempfile
import logging
import random
import config
import os
import yaml
import time
import torch
import transformers
import pandas as pd
import jsonlines

#from utilities import *
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM
from transformers import TrainingArguments
from transformers import AutoModelForCausalLM

logger = logging.getLogger(__name__)
global_config = None

model_name = "EleutherAI/pythia-70m"

training_config = {
    "model": {
        "pretrained_name": model_name,
        "max_length" : 2048
    },
    "datasets": {
        "use_hf": use_hf,
        "path": dataset_path
    },
    "verbose": True
}

tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
train_dataset, test_dataset = tokenize_and_split_data(training_config, tokenizer)

print(train_dataset)
print(test_dataset)

上面是代码,我无法安装库,并且没有定义这个函数。你能帮帮我吗?utilitiestokenize_and_split_data

Python Google-Co实验室 训练-数据 拥抱脸 -tokenizers

评论


答:

0赞 mike jay 10/26/2023 #1

这里下载“utilities.py”并将其粘贴到名为“...\Lib\site-packages”的 python 文件夹中,您可以通过“cmd”命令“python -v”找到此路径。

评论

0赞 Gha 10/26/2023
库导入成功,但此功能tokenize_and_split_data仍然不起作用
1赞 Kim Noël 11/29/2023 #2

如果您在微调时从 Lamini 运行协作,则有一个包含此方法的 python 文件 utilities.py。只需重新创建此文件或将所有方法复制粘贴到单元格中即可。

$ ls
05_Training_lab_student.ipynb  lamini_docs.jsonl    utilities.py
__pycache__                    lamini_docs_3_steps

$ cat utilities.py