Автор Тема: Конвертация текста из WIN в UTF8 средствами perl (Прочитано 4451 раз)

mastak777 · « : 22 Июля 2011, 09:46:56 »

Раньше программировал в Винде, тексты (скрипты, формы и т.п.) были в основном в кодировке WIN. Сейчас перешел на Ubuntu и по ряду причин удобнее поменять кодировку на UTF.
Написал модулек, который переконвертирует все папки в UTF.
Но есть такой нуансик. В одном файле могут встречаться строчки с разной кодировкой - WIN, KOI8, ENG. WIN нормально конвертируется в UTF8, а вот KOI8 что-то не очень. Вместо русского текста получается нечитаемый русский, к примеру, вместо "Сайту" (типа, "Сайту 5 лет") получается

Код: [Выделить]

яЮИРС

Строка кода:

Код: [Выделить]

my $ch = Lingua::DetectCharset::Detect($str); # определяем кодировку - KOI8
$str = Convert::Cyrillic::cstocs('koi8', 'UTF8', $str); # Конвертируем

Перепробовал несколько методов - результат один и тот же. Благо что не много таких строчек. Они (по-видимому) получаются в результате того, что файлы на сервере правятся не одним человеком. В кодировке Винды никаких различий не замечалось, а сейчас могут полезть глюки.
После перекодировки получаем (проверяем по строкам в каком-нибудь файле):

Код: [Выделить]

ENG остается ENG (эти строки я пропускаю)
WIN становится UTF8 (и нормально читаются)
KOI8 становится ENG (и не читаются, а должны бы тоже стать UTF8. Почему?)

Кто-нибудь сталкивался с такой проблемкой?

RazrFalcon · « **Ответ #1 :** 22 Июля 2011, 10:48:04 »

1) не вин, а cp1251
2) iconv

mastak777 · « **Ответ #2 :** 22 Июля 2011, 12:30:38 »

Цитата: RazrFalcon от 22 Июля 2011, 10:48:04

1) не вин, а cp1251
2) iconv

iconv - это консольная команда, а я же говорю о модулях perl. Не с консоли же я буду перекодировать файлы, заброшу модуль на сервер и перекодирую все прямо там. Ну и у себя тем же способом.
Впрочем, если б вы поподробнее писали, может было понятнее.
С консоли, кстати, тоже пытался - результат тот же.
И так

Код: [Выделить]

iconv -f win -t utf8 live.txt

И так

Код: [Выделить]

iconv -f koi8 -t utf8 live.txt

В строке, с кодировкой KOI8 - нечитаемая латиница. Остальные строки перекодируются нормально.

wl · « **Ответ #3 :** 22 Июля 2011, 13:05:11 »

Цитата: mastak777 от 22 Июля 2011, 09:46:56

После перекодировки получаем (проверяем по строкам в каком-нибудь файле):
Код: [Выделить]
ENG остается ENG (эти строки я пропускаю) WIN становится UTF8 (и нормально читаются) KOI8 становится ENG (и не читаются, а должны бы тоже стать UTF8. Почему?)Кто-нибудь сталкивался с такой проблемкой?

Бывало нечто похожее.
Все зависит от версии перла и от того, как читаются строки из файла.
Полагаю, у вас >= 5.6

По умолчанию кодировкой всего прочитанного считается utf-8, там специальный флаг стоит.
Это читали?

Да, а утилита iconv используется неправильно, правильная кодировка у нее называется не win, а cp1251

mastak777 · « **Ответ #4 :** 22 Июля 2011, 13:22:10 »

Разобрался. Спасибо. Здесь промелькнул пост (не запомнил чей), который и помог разобраться.
Дело в том, что

Код: [Выделить]

my $ch = Lingua::DetectCharset::Detect($str);

выдает довольно скудную инфу о кодировке - WIN, KOI8, UTF8, ENG.
В частности под KOI8 может находиться довольно широкий диапазон кодировок. их можно посмотреть

Код: [Выделить]

$ iconv -l

Тогда с консоли подобрал нужную кодировку, в данном случае KOI8 = cp1251

Код: [Выделить]

$ perl -pe 'BEGIN { binmode(STDIN,":encoding(cp1251)"); binmode(STDOUT, ":encoding(utf8)"); } '  < live.txt

А могло быть что-нибудь другое. Я полагал, что KOI8 это и есть KOI8.
В итоге получилось так.

Код: [Выделить]

         my $ch = Lingua::DetectCharset::Detect($str);
	if($ch eq 'WIN'){
	       $str = Convert::Cyrillic::cstocs('WIN', 'UTF8', $str);
	}elsif($ch eq 'KOI8'){
		$converter = Text::Iconv->new("cp1251", "utf-8");
	        $str = $converter->convert($str);
	}

В общем запутано немного, сам не все понял, но проблема решена.
Спасибо за подсказку.

wl · « **Ответ #5 :** 22 Июля 2011, 13:35:53 »

Цитата: mastak777 от 22 Июля 2011, 13:22:10

данном случае KOI8 = cp1251

Вот это круто!

Если у вас кодировка определилась как koi-8, но на самом деле это cp-1251, значит, она определилась неправильно.

mastak777 · « **Ответ #6 :** 22 Июля 2011, 13:59:00 »

Цитата: wl от 22 Июля 2011, 13:35:53

Если у вас кодировка определилась как koi-8, но на самом деле это cp-1251, значит, она определилась неправильно.

Хм. Она, оказывается неправильно определилась! Ну надо же.. Вот ведь, стали модули делать, даже кодировку определить не могут.
Ясно одно. То, что выдает детектер

Код: [Выделить]

my $ch = Lingua::DetectCharset::Detect($str);

не является кодировкой в прямом смысле.
Мне этой инфы достаточно, чтобы продолжить работу. Вникать в нюансы и тонкости нет времени и желания.

wl · « **Ответ #7 :** 22 Июля 2011, 15:03:12 »

Если в алгоритме используется частотный анализ, а текст короткий, то ничего удивительного.

mastak777 · « **Ответ #8 :** 22 Июля 2011, 18:15:58 »

Цитата: wl от 22 Июля 2011, 15:03:12

Если в алгоритме используется частотный анализ, а текст короткий, то ничего удивительного.

Ну, да. Вот такая конструкция не распознается.

Код: [Выделить]

my $str='$main::H{NAME}=~s/[^\w\.À-ßà-ÿ ]//g;';
my $ch = Lingua::DetectCharset::Detect($str);

Выдает ENG , типа нет кириллицы. А отдельными символами вообще труба.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Конвертация текста из WIN в UTF8 средствами perl (Прочитано 4451 раз)

mastak777

Конвертация текста из WIN в UTF8 средствами perl

RazrFalcon

Re: Конвертация текста из WIN в UTF8 средствами perl

mastak777

Re: Конвертация текста из WIN в UTF8 средствами perl

wl

Re: Конвертация текста из WIN в UTF8 средствами perl

mastak777

Re: Конвертация текста из WIN в UTF8 средствами perl

wl

Re: Конвертация текста из WIN в UTF8 средствами perl

mastak777

Re: Конвертация текста из WIN в UTF8 средствами perl

wl

Re: Конвертация текста из WIN в UTF8 средствами perl

mastak777

Re: Конвертация текста из WIN в UTF8 средствами perl