Формат входных данных

[input.syntax]

^Lexer
CHAR → <a Unicode scalar value>

NUL → U+0000

[input.intro]

Эта глава описывает, как исходный файл интерпретируется как последовательность токенов.

Описание того, как программы организованы в файлы, см. в разделе Крейты и исходные файлы

[input.encoding]

Кодировка исходного кода

[input.encoding.utf8]

Каждый исходный файл интерпретируется как последовательность символов Юникода, закодированных в UTF-8.

[input.encoding.invalid]

Ошибкой является случай, если файл не является корректным UTF-8.

[input.byte-order-mark]

Удаление метки порядка байт (BOM)

Если первый символ в последовательности — U+FEFF (МЕТКА ПОРЯДКА БАЙТ), он удаляется.

[input.crlf]

Каждая пара символов U+000D (CR), сразу за которой следует U+000A (LF), заменяется на один символ U+000A (LF). Это происходит однократно, а не повторно, поэтому после нормализации в входных данных всё ещё могут существовать U+000D (CR), сразу за которыми следует U+000A (LF) (например, если исходные данные содержали “CR CR LF LF”).

Остальные вхождения символа U+000D (CR) остаются на месте (они рассматриваются как пробельные символы).

[input.shebang]

Удаление шебанга (shebang)

[input.shebang.intro]

Если оставшаяся последовательность начинается с символов #!, символы до первого U+000A (LF) включительно удаляются из последовательности.

Например, первая строка следующего файла будет проигнорирована:

#!/usr/bin/env rustx

fn main() {
    println!("Hello!");
}

[input.shebang.inner-attribute]

В качестве исключения, если за символами #! (игнорируя находящиеся между ними комментарии или пробельные символы) следует токен [, ничего не удаляется. Это предотвращает удаление внутреннего атрибута в начале исходного файла.

Note

Макрос стандартной библиотеки include! применяет удаление метки порядка байт, нормализацию CRLF и удаление шебанга к файлу, который он читает. Макросы include_str! и include_bytes! этого не делают.

[input.tokenization]

Токенизация

Полученная последовательность символов затем преобразуется в токены, как описано в оставшейся части этой главы.

The Rust Reference

Формат входных данных

Кодировка исходного кода

Удаление метки порядка байт (BOM)

Нормализация CRLF

Удаление шебанга (shebang)

Токенизация

Keyboard shortcuts

The Rust Reference

Формат входных данных

Кодировка исходного кода

Удаление метки порядка байт (BOM)

Нормализация CRLF

Удаление шебанга (shebang)

Токенизация