INTERNET-WEB.RU
Обучение работе с ПК
Операционные системы
Флеш (Flash)

Кодировки символов в интернете

Исторически сложилось так, что «родным» для компьютеров является английский язык. И многие стандарты, возникшие в период становления компьютерных сетей, имеют соответствующие особенности. Так, электронное письмо, передаваемое по каналам связи, может содержать только текстовые символы (английского алфавита) и знак конца абзаца. Все остальные символы, в том числе и буквы национальных алфавитов, считаются недопустимыми.

Компьютер не знает, что такое буква «а» или «б», он работает с числовым кодом этого символа. Таблица, в которой каждому допустимому символу алфавита соответствует определенный код, называется кодовой страницей. Исторически сложилось так, что для русского языка существует несколько вариантов нумерации букв алфавита. Иными словами, одна и та же русская буква может стоять на разных местах в «алфавите» различных компьютеров.

Сейчас наиболее широко используются следующие кодовые страницы: 1251, или Windows; 866, или DOS; koi-8. Если вы работаете в программах Windows, то русские тексты сохраняются в кодировке 1251. Если запущена задача DOS (в том числе и из-под Windows), то тексты будут сохранены в кодировке 866. Таким образом, на всех компьютерах под управлением DOS тексты будут иметь иное расположение букв русского алфавита — в соответствии с правилами кодовой страницы 866. Для работы в Интернете, прежде всего для пересылки сообщений электронной почты, используется кодировка koi-8. Эта кодовая таблица отличается тем, что русские буквы размещены на первых 127 позициях, в «свободных» от символов английского алфавита местах. В результате при передаче сообщения электронной почты, написанного такими символами, не нужно осуществлять дополнительных преобразований (кодирования) текста.

Если вы попытаетесь прочитать документ, который подготовлен в другой кодовой таблице (например, прочитать в Windows текст сообщения в кодировке koi-8), то на экране вместо понятных слов появится абракадабра. В подобных случаях необходимо осуществить перекодировку текста.

Очень легко осуществить перекодировку страниц Интернет с помощью программы просмотра MS Internet Explorer последних версий. Если программа просмотра самостоятельно не определит кодировку и на экране отобразится нечитаемый текст, то в меню программы выберите пункт Вид,


 Пример преобразования кодировок

Приведен образец электронного письма, пришедшего в нечитаемом виде. Для преобразования текста была использована бесплатная программа Tran-Code.

Коммерческие программы имеют дополнительные сервисы. Например, некоторые программы могут проверять каждое пришедшее письмо, автоматически определять неверные кодировки и преобразовывать текст в читаемый вид даже без подачи пользователем соответствующей команды

затем меню Кодировки, а в нем укажите другую кодировку для такой страницы. Обычно для оформления русскоязычных страниц Интернета используются кодировки Cyrillic (Windows) или Cyrillic (K0I-8R).

Достаточно часто бывают ситуации, когда вы получаете нечитаемое электронное письмо. Обычно программы почтовых клиентов не имеют встроенной возможности перекодировки символов (как MS Outlook). Поэтому вам придется установить дополнительную программу, которая сможет провести данную операцию . Существуют как коммерческие программы перекодировки (например, MailReader), так и бесплатные («Штирлиц», Tran Code и др.). Данные программы позволяют во многих случаях восстановить текст сообщения, перенесшего даже несколько перекодировок при путешествии по сетям Интернета. Некоммерческие программы легко найти на любом сервере бесплатного программного обеспечения (например, ).

Иногда нужно отправить письмо на русском языке с компьютера (на компьютер), на котором по тем или иным причинам оно не может быть прочитано непосредственно. Например, если на компьютере не установлена поддержка русского языка.

В таких ситуациях прибегают к использованию так называемой кодировки «волапюк». Для этого русские тексты набирают соответствующими

по звучанию латинскими буквами, например: «problema kodirowok simvo-low russkogo yazuka». Кстати, некоторые программы могут даже автоматически преобразовывать тексты в эту кодировку.

Редко набор бессмысленных на первый взгляд латинских символов в письме свидетельствует об ошибке распознавания вложенного файла. Восстановить информацию в этом случае помогут только ручные операции.

Внимательно изучите отображаемое в программе содержимое письма, обращая особое внимание на участки, которыми начинается и завершается набор латинских символов. Если письмо закодировано в варианте UUEncode, то можно обнаружить в начале блока термин begin, а в конце блока — end и строку, начинающуюся с символов sum. Если вложенный файл был закодирован по стандарту MIME, то вы сможете обнаружить термины MIME и BASE64.

Сохраните текст сообщения в виде файла на диске компьютера. Найдите в Сети одну из бесплатных программ, которые позволяют декодировать файл для установленного вами стандарта. Можно воспользоваться также дополнительными возможностями декодирования файлов, которые включены в некоторые коммерческие программы (например, Windows Commander).

В результате этих операций вложенный файл будет восстановлен. Обратите внимание, что в случае разбиения файла по нескольким письмам вам понадобится сохранить на диске все эти сообщения. Кроме того, в зависимости от используемой программы декодирования может понадобиться ручная сборка отдельных частей вложения в один файл. Эту операцию можно выполнить в любом текстовом (неформатирующем) редакторе.

© 2009 internet-web.ru. All Rights Reserved