Автор Тема: Как разбить предложение на отдельные слова в каждой строке? (Прочитано 2177 раз)

mintol · « : 19 Ноября 2015, 00:55:57 »

Собираю корпус текста, и возникли небольшие затруднения.
Дано предложение: Пушкин читает книгу. Оно написано в одной строке и ограничено точкой. А мне нужно, чтобы каждое слово этого предложения писалось на одной строке.
До: Пушкин читает книгу.
После:
Пушкин
читает
книгу.
Как это сделать? промучилась долго, подскажите каким оператором. Пыталась с помощью sort, но всё безуспешно. Буду рада вашему вниманию.

ТС не появлялся на Форуме более полугода по состоянию на 13/07/2019 (последняя явка: 28/11/2018). Модератором раздела принято решение закрыть тему.
--zg_nico

adawdp · « **Ответ #1 :** 19 Ноября 2015, 03:15:15 »

2015 Nov 18; 07:15 PM; Oakville, ON, Canada.

— Вы понимаете, mintol, такую или подобную задачу каждый обычно решает путём написания персонального скрипта.
— Базовым набором подобного скрипта могут быть следующие элементы,перечень, ясное дело, не полный :

Код: (bash) [Выделить]

sed -i s/\\r// 3pa3oK.txt  # замена символа окончания строки…
sed -i -e 's/$/ /' 3pa3oK.txt | tr '\n' ' '  # добавляет пробел в конец сток…
tr '[:upper:]' '[:lower:]' < 3pa3oK.txt > 3pa3oK2.txt  # Прописные в строчные ( кириллица не поддерживается)…
sed -i 's/[,.:;!?«»©—×°–“”→←‖∗↑↓…∞‘’]/\ /g' 3pa3oK.txt  # удаляет те знаки, которые в “[]”…
sed -i -e ':a;N;$!ba;s/\n//g' 3pa3oK.txt  # объединяет строки…
sed -i 's/[ \t][ \t]*/\ /g' 3pa3oK.txt  # меняет пробелы и таб. на один пробел…
sed -i 's/^[ \t]*//;s/[ \t]*$//' 3pa3oK4.txt  # убирает пробелы и таб. конца и начала файла…
tr -s [:space:][:punct:][:digit:][:cntrl:] \\n < 3pa3oK.txt | sort -u > 3pa3oK2.txt # делит на слова и сортирует …

— В общем и так далее…

— Здесь наверное вот так можно попробовать, терминал открыть там где находятся файлы:

Код: (bash) [Выделить]

tr -s [:space:][:punct:][:digit:][:cntrl:] \\n < 3pa3oK0.txt > 3pa3oK1.txt

— В первом файле то что нужно преобразовать, во втором файле готовый результат. Перед этим всё не нужно “вытягивать” в одну строку должно так работать… А с операторами там перебор, наверное, короче почитать нужно руководство и оставить нужное…

— После последнего слова пропадает точка, но это нужно разбираться с операторами часть может быть лишней…

— В общем я не очень специалист

, может кто из программистов подскажет получше…

— Думаю, что есть масса способов …

spk-ubuntu · « **Ответ #2 :** 19 Ноября 2015, 04:07:50 »

В самом простом варианте:

Код: [Выделить]

echo 'Пушкин читает книгу.' | sed -r 's/\s+/\n/g'или

Код: [Выделить]

echo 'Пушкин читает книгу.' | tr -s '[:space:]' '\n'

Phlya · « **Ответ #3 :** 19 Ноября 2015, 04:09:06 »

Код: (Python) [Выделить]

for word in u"Пушкин читает книгу.".split(' '):
    print word

Azure · « **Ответ #4 :** 19 Ноября 2015, 12:52:49 »

Phlya, Это Вы показали что знаете Питон?

Код: (Python) [Выделить]

print(*(word for word in u"Пушкин читает книгу.".split()), sep="\n")

Код: (Python) [Выделить]

print(u"Пушкин читает книгу.".replace(" ", "\n"))

Пользователь решил продолжить мысль 19 Ноября 2015, 12:57:43:

Код: (Python) [Выделить]

for l in u"Пушкин читает книгу.":
    if l != " ":
        print(l, end="")
    else:
        print()
else:
    print()

alsoijw · « **Ответ #5 :** 19 Ноября 2015, 14:51:00 »

Это что, примеры для второго питона?

Azure · « **Ответ #6 :** 19 Ноября 2015, 15:10:19 »

alsoijw, Для 3-го. Легко определить по функции print()

Phlya · « **Ответ #7 :** 19 Ноября 2015, 15:18:17 »

Azure,
Да какое тут знание, просто еще один вариант.

alsoijw,
Мой для второго.

alsoijw · « **Ответ #8 :** 19 Ноября 2015, 15:21:28 »

Azure, тогда зачем u в начале строки?

mintol · « **Ответ #9 :** 20 Ноября 2015, 21:50:01 »

Спасибо, оказывается есть много вариантов решения. Очень помогли. Ещё раз благодарю.
Для начала я почистила файл от всех знаков при помощи tr -d
по вашему совету каждое слово преобразовала в одну строку tr -s '[:space:]' '/n'
ну а потом уже по заданию дальше считала частоту слов в порядке убывания sort| uniq -c| sort -nr

всё получилось, спасибо огромное ребята

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как разбить предложение на отдельные слова в каждой строке? (Прочитано 2177 раз)

mintol

Как разбить предложение на отдельные слова в каждой строке?

adawdp

Re: Как разбить предложение на отдельные слова в каждой строке?

spk-ubuntu

Re: Как разбить предложение на отдельные слова в каждой строке?

Phlya

Re: Как разбить предложение на отдельные слова в каждой строке?

Azure

Re: Как разбить предложение на отдельные слова в каждой строке?

alsoijw

Re: Как разбить предложение на отдельные слова в каждой строке?

Azure

Re: Как разбить предложение на отдельные слова в каждой строке?

Phlya

Re: Как разбить предложение на отдельные слова в каждой строке?

alsoijw

Re: Как разбить предложение на отдельные слова в каждой строке?

mintol

Re: Как разбить предложение на отдельные слова в каждой строке?