Системы кодировок символов
Степень завершённости урока: 30%
Статистика урока:
Для представления символов в виде числовых значений используются различные системы кодировки символов. Наиболее распространённые - Unicode (Юникод) и ASCII (аски). В свою очередь у каждой из этих систем есть свои форматы. Например, для Юникода это UTF-8 (Unicode Transformation Format, 8 бит), UTF-16, UTF-32 и т.д.
Каждый символ в системе Unicode принадлежит к определённому диапазону, который представлен в шестнадцатеричном формате:
В некоторых файлах может использоваться Byte Order Mark (BOM) - специальная последовательность байтов, помогающая определить кодировку.
Проверить кодировку текстового файла можно с помощью пакета tidyverse для языка программирования R.
1. дополнить описание диапазонов символов в системе Unicode
2. добавить пример кода для определения кодировки текста
Страница обновлена 18 мая 2025 года.