Системы кодировок символов

Степень завершённости урока: 30%   

Статистика урока:

Для представления символов в виде числовых значений используются различные системы кодировки символов. Наиболее распространённые - Unicode (Юникод) и ASCII (аски). В свою очередь у каждой из этих систем есть свои форматы. Например, для Юникода это UTF-8 (Unicode Transformation Format, 8 бит), UTF-16, UTF-32 и т.д.

Каждый символ в системе Unicode принадлежит к определённому диапазону, который представлен в шестнадцатеричном формате:

В некоторых файлах может использоваться Byte Order Mark (BOM) - специальная последовательность байтов, помогающая определить кодировку.

Проверить кодировку текстового файла можно с помощью пакета tidyverse для языка программирования R.


Планируется сделать

1. дополнить описание диапазонов символов в системе Unicode
2. добавить пример кода для определения кодировки текста




   Предложить идею по улучшению урока

            

Страница обновлена 18 мая 2025 года.