当 1024 字符为分隔符时，Java Scanner 类在标记化中失败-解网

问：

我发现java.util.Scanner类的奇怪行为。我需要将一个 String 变量拆分为一组用“;”分隔的标记。

如果我考虑一个字符串 “a[*1022]” + “;[*n]“我期望一个数字 n 的令牌。但是，如果 n=3，则 Scanner 类失败：它只“看到”2 个标记而不是 3 个。我认为这与 Scanner 类的内部字符缓冲区大小有关。

a[x1022];      -> 1 token: correct

a[x1022];;     -> 2 token: correct

a[x1022];;;    -> 2 token: wrong  (I expect 3 tokens)

a[x1022];;;;   -> 4 token: correct

我附上一个简单的例子：

import java.util.Scanner;

public static void main(String[] args) {

    // generate test string: (1022x "a") + (3x ";") 
    String testLine = "";
    for (int i = 0; i < 1022; i++) {
        testLine = testLine + "a";
    }
    testLine = testLine + ";;;";

    // set up the Scanner variable
    String delimeter = ";";
    Scanner lineScanner = new Scanner(testLine);
    lineScanner.useDelimiter(delimeter);
    int p = 0;

    // tokenization
    while (lineScanner.hasNext()){
            p++;
            String currentToken = lineScanner.next();
            System.out.println("token" + p +  ": '" + currentToken + "'");
    }
    lineScanner.close();
}

我想跳过“不正确”的行为，你能帮我吗？谢谢

缓冲区 java.util.scanner 分隔符

当 1024 字符为分隔符时，Java Scanner 类在标记化中失败

Java Scanner class fails in tokenization when 1024 character is the delimeter

评论