Автор Тема: Кириллица, lua, и разбиение на слова (Прочитано 3597 раз)

piyavking · « : 05 Марта 2013, 21:04:32 »

Опять кириллица даёт стране угля: Есть lua скрипт, в нём строчки:

...

     s = "hello world from lua"

     for w in string.gmatch(s, "%a+") do

# ...строка прекрасно разбивается на слова

     end

     s = "кириллическая строка не читается"

     for w in string.gmatch(s, "%a+") do

#...всё печально

     end

...

appomsk · « **Ответ #1 :** 07 Марта 2013, 06:51:36 »

В Луа восьмибитные символы, в Linuxе сейчас повсеместно используется кодировка UTF-8, в которой кириллические символы занимают два байта (а ascii - основные латинские - один байт, поэтому с ними все нормально).

Нужно или искать библиотеку Луа для работы с UTF, или конвертировать в восьмибитную кодировку (CP1251 - Windows - самая распространенная).

piyavking · « **Ответ #2 :** 07 Марта 2013, 08:16:27 »

appomsk,

Всё пока норм, конструкция "for w in string.gmatch(line, "%S+") do" таки выдирает слова.

Yurror · « **Ответ #3 :** 07 Марта 2013, 10:34:28 »

Цитата: appomsk от 07 Марта 2013, 06:51:36

... кодировка UTF-8, в которой кириллические символы занимают два байта (а ascii - основные латинские - один байт, поэтому с ними все нормально)...

Кодировка с переменной длиной символа. И единственное что в ней оговаривается что она обратно совместима с ASCII. Полагаться на то что остальные символы будут двубайтными - копать себе яму.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Кириллица, lua, и разбиение на слова (Прочитано 3597 раз)

piyavking

Кириллица, lua, и разбиение на слова

appomsk

Re: Кириллица, lua, и разбиение на слова

piyavking

Re: Кириллица, lua, и разбиение на слова

Yurror

Re: Кириллица, lua, и разбиение на слова