Автор Тема: Кодировка .txt (Прочитано 39998 раз)

bourger · « : 01 Апреля 2007, 11:54:55 »

Как прочесть про этой .txt файл, если он в какой-то другой кодировке?

gedit --encoding=KOI8-Rвыдает абракадабру кириллицей,

encoding=CP1251отвечает "неправильная кодировка" и показывает абракадабру нечитаемыми символами,

encoding=UTF-8открывает чистый лист, без единого символа, если сохранить в таком виде, размер файла - 0 байт.
А должен быть текст на русском языке...

Li · « **Ответ #1 :** 01 Апреля 2007, 19:01:04 »

попробуй http://charset.ru/

bourger · « **Ответ #2 :** 02 Апреля 2007, 21:38:40 »

Li
Спасибо, теперь можно читать, но хотелось бы делать это не залезая в инет...
Наверняка есть про этой способ отрывать текстовые файлы в разных кодировках.
Народ, подскажите!

MA3X · « **Ответ #3 :** 02 Апреля 2007, 22:38:05 »

При открытии (gedit - file-open) выбираешь файл и в какой кодировке тебе его подать. Далее везде.

stan · « **Ответ #4 :** 04 Апреля 2007, 10:45:35 »

Цитата: MA3X от 02 Апреля 2007, 22:38:05

При открытии (gedit - file-open) выбираешь файл и в какой кодировке тебе его подать. Далее везде.

программка-редактор mousepad умеет распозновать кодировку. Но это самый обычный текстовый редактор, без подсветок и прочего.

Envel · « **Ответ #5 :** 04 Апреля 2007, 20:08:37 »

gedit тоже кодировку распознает, только вот cp1251 от koi8-r отличить не сможет (думаю, что это вообще невозможно). Я просто меняю приоритет cp1251 в списке кодировок, перемещаю WINDOWS-1251 выше KOI8-R в списке. Список здесь: gconf-editor-> /apps/gedit-2/preferences/encodings/auto_detected

boa · « **Ответ #6 :** 05 Апреля 2007, 16:53:43 »

ну или в (g)vi(m):
:e ++enc=cp1251 /path/filename

stingx · « **Ответ #7 :** 04 Декабря 2007, 15:37:05 »

Цитата: Envel от 04 Апреля 2007, 20:08:37

только вот cp1251 от koi8-r отличить не сможет (думаю, что это вообще невозможно).

Не соглашусь. Давным давно еще занимался подобной проблемой. Отличие KOI8-R от CP1251 очень легко распознать. Вобщем, в тексте намного больше строчных букв, чем прописных. На основании этого простой алгоритм. Если кодировка не ЮНИКОД(utf-8, unicode-be,unicode-le,...), то.. Считаем количество симовлов в диапазонах
0xE0-0xFF(win-1251) ;
0xA0-0xAF, 0xE0-0xEF (ibm866);
0xC0-0xDF (koi-8).
В каком диапазоне символов больше, ту кодировку и используем. Вероятность ошибки есть только на ОЧЕНЬ маленьких файлах. Но, в общем случае результат отличный. Для больших файлов можно считать только первый килобайт файла, или, например, до 100 найденых символов в одном из диапазонов.

Delvin · « **Ответ #8 :** 04 Декабря 2007, 19:00:57 »

Цитата: bourger от 01 Апреля 2007, 11:54:55

Код: [Выделить]
gedit --encoding=KOI8-R
Код: [Выделить]
encoding=CP1251
Код: [Выделить]
encoding=UTF-8

Прошу прощения, а iconv уже отменили?

icovnv -f CODENAME -t CDENAME ./filename.txt > ./filenema_new.txt
И открывайте его потом чем хотите.

Shuffle · « **Ответ #9 :** 23 Декабря 2007, 23:53:54 »

Как заставить gedit по умолчанию открывать .txt файлы в кодировке windows-1251?

adept_ · « **Ответ #10 :** 24 Декабря 2007, 00:10:22 »

в gconf-editor найти:
/apps/gedit-2/preferences/encodings/auto_detected
Windows-1251 переместить вверх

Delfin · « **Ответ #11 :** 24 Декабря 2007, 09:14:44 »

А никто не знает похожего изменения для Geany?

Psy[H[] · « **Ответ #12 :** 24 Декабря 2007, 09:52:08 »

используйте tea - если настроите правильно, будет вам все открывать. Могу конфиг выложить, кому надо.

jmur · « **Ответ #13 :** 24 Декабря 2007, 16:59:31 »

ну и не забываем про браузер

подобрали читабельную кодировку - копипейст в новый файл

байчи · « **Ответ #14 :** 27 Декабря 2007, 19:17:06 »

Когда работаю под "Форточками" ( на работе), то пользуюсь блокнотом AkelPad, где текстовый файл сохраняется в utf8, а дома kubuntu 7.10 эти файлы видит, и причем на русском.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Кодировка .txt (Прочитано 39998 раз)

bourger

Кодировка .txt

Li

Re: Кодировка .txt

bourger

Re: Кодировка .txt

MA3X

Re: Кодировка .txt

stan

Re: Кодировка .txt

Envel

Re: Кодировка .txt

boa

Re: Кодировка .txt

stingx

Re: Кодировка .txt

Delvin

Re: Кодировка .txt

Shuffle

Re: Кодировка .txt

adept_

Re: Кодировка .txt

Delfin

Re: Кодировка .txt

Psy[H[]

Re: Кодировка .txt

jmur

Re: Кодировка .txt

байчи

Re: Кодировка .txt