Автор Тема: Выдернуть подстроку между разделителями из строки (Прочитано 1633 раз)

kduk · « : 23 Февраля 2018, 17:22:25 »

Всем привет!
Такая вот проблема,имеется файл, в котором данные вида
<a href="/qw/vb/123?ak=93&;>
и
<a href="/qw/vb/412?ak=118&;>
Как вытянуть через grep первые цифры (123 и 412)?

Пробовал так
grep -o '<a href="/qw/vb/*">' file.html | grep -o '^[^/]*'

но ничего не выводит вообще

Peter_I · « **Ответ #1 :** 23 Февраля 2018, 17:31:25 »

Думаю, что с помощью grep не удастся, она же выводит строки целиком. Попробуйте cut.

ALiEN · « **Ответ #2 :** 23 Февраля 2018, 17:35:28 »

Код: [Выделить]

grep -Eo 'vb\/[0-9]*\?' file.html | tr -cd 0-9\\n

kduk · « **Ответ #3 :** 23 Февраля 2018, 18:34:53 »

Цитата: ALiEN175 от 23 Февраля 2018, 17:35:28

Код: [Выделить]
grep -Eo 'vb\/[0-9]*\?' file.html | tr -cd 0-9\\n

Большое спасибо)

ReNzRv · « **Ответ #4 :** 23 Февраля 2018, 19:55:59 »

Еще вариант:

Код: [Выделить]

perl -ne 'if(/<a href="\/qw\/vb\/(\d+)/){print "$1\n"}'

Azure · « **Ответ #5 :** 23 Февраля 2018, 19:58:15 »

Код: (bash) [Выделить]

grep -Po 'a href="/qw/vb/\K\d{3}' file.html

kduk · « **Ответ #6 :** 05 Марта 2018, 17:04:41 »

Чтобы не плодить темы, напишу здесь)

Есть html файл, в котором данные вида:

Код: [Выделить]

<tr class="prop">
                <td class="name">Date Created</td>
                <td class="fil"></td>
                
                    <td class="value">2017-12-01 12:10:07 UTC</td>
  </tr>

            <tr class="prop">
                <td class="name">Date Deleted</td>
                <td class="fil"></td>
                <td class="value">2017-12-09 12:12:12 UTC</td>
            </tr>

Код: [Выделить]

grep "Date Deleted" myh.html - B 0 -A 3 | grep "[0-9]" | grep -op '>\K.*'
нужно вытянуть "2017-12-09" в идеале вообще получить строку "171209"
но пока у меня получилось вытянуть только "2017-12-09 12:12:12 UTC</td>"
подскажите, пожалуйста, как обрезать до пробела?
пробовал добавить в конце такую строку: grep -o '^[^[[:space:]]]*' но вытаскивает вообще только "2"

ALiEN · « **Ответ #7 :** 05 Марта 2018, 17:20:33 »

Код: [Выделить]

grep -A2 'Date Deleted' | tail -1 | grep -Eo '[0-9]{4}(\-[0-9]+){2}' | tr -d \-

Код: [Выделить]

grep -A2 'Date Deleted' | tail -1 | tr -cd '[:digit:]' | cut -c1-8

kduk · « **Ответ #8 :** 05 Марта 2018, 20:06:22 »

Цитата: ALiEN175 от 05 Марта 2018, 17:20:33

Код: [Выделить]
grep -A2 'Date Deleted' | tail -1 | grep -Eo '[0-9]{4}(\-[0-9]+){2}' | tr -d \-
Код: [Выделить]
grep -A2 'Date Deleted' | tail -1 | tr -cd '[:digit:]' | cut -c1-8

спасибо большое

Azure · « **Ответ #9 :** 06 Марта 2018, 14:53:16 »

Код: (bash) [Выделить]

 sed -n '
    /Date Deletedl/! d;
    :1;
    n;
    /.*value"\?>[0-9][0-9]/! b1;
    s///;
    s/-//g;
    s/ /\n/;
    P'

Однако повторю еще раз: "Работать с html/xml надо специализированными инструментами"

Пользователь добавил сообщение 06 Марта 2018, 15:25:29:

Код: (bash) [Выделить]

grep -A2 'Date Deleted' | grep -Eo '[0-9]{2}(\-[0-9]+){2}' | tr -d \-tail тут не только не нужен, но и опасен - если дат несколько

Цитата: kduk от 05 Марта 2018, 17:04:41

получить строку "171209"

kduk · « **Ответ #10 :** 13 Марта 2018, 17:52:02 »

Продолжу

Теперь идея другая, а можно ли grep-ом вытянуть сразу два значения? Просто при обычном использоваии грепа, например на дату, греп записывает целый массив дат в файл и нет возможности сделать соответствие между датой и номером (которому эта дата соответсвтует), кроме как писать в один файл номер, а в другой дату и просто поочереди их брать. Но я боюсь ситуации, когда дата будет отсутствовать и все даты в файле съедут и нарушится соответствие.

Код: [Выделить]

<td>
            <a href="/qw/vb/123?ak=blabla3">
                                Qwert
                            </a>
                        </td>

 <td class="value">2017-12-09 12:12:12 UTC</td>

Код: [Выделить]

<td>
            <a href="/qw/vb/456?ak=asdfg">
                                Qwert2
                            </a>
                        </td>

 <td class="value">2018-01-20 10:10:12 UTC</td>

Представляю себе конечный файл типа такого:
123 171209
456 180120
Но это не принципиально, мне главное знать к какому номеру какая дата. Или может можно как-то отследить что даты нет и вместо неё, например, установить ноль и дальше проверять не равно ли нулю.

P.S: Это не моё решение использовать для html bash, мне просто не дают выбирать)

Пользователь добавил сообщение 13 Марта 2018, 18:28:43:

А ещё лучше бы 3 значения, чтобы записывать в файл так (в каком порядке будут слова не важно, главное чтобы все в одном)

123 171209 blabla3
456 180120 asdfg

ALiEN · « **Ответ #11 :** 13 Марта 2018, 21:26:29 »

grep не подойдет: читайте файл построчно, записывая нужные значения в переменные и файл.
Сделать проверку на отсутствие данных - несложно.

ReNzRv · « **Ответ #12 :** 13 Марта 2018, 23:00:55 »

Если данных не гигабайты, использовать файлы смысла нет никакого.
Эта задача элементарно решается использованием хэшей (ассоциативных массивов) например на языках Perl, Awk, Python.

Azure · « **Ответ #13 :** 14 Марта 2018, 19:02:34 »

Код: (bash) [Выделить]

 sed '
    /.*qw\/vb\//!d;
    s///;
    :1;
    N;
    /value/!b1;
    s/?[^\n]*=/ /;
    s/\W*\n.*>[0-9][0-9]/ /;
    s/ [0-9][^-]*$//;
    s/-//g
    '

Форум русскоязычного сообщества Ubuntu

Автор Тема: Выдернуть подстроку между разделителями из строки (Прочитано 1633 раз)

kduk

Выдернуть подстроку между разделителями из строки

Peter_I

Re: Выдернуть подстроку между разделителями из строки

ALiEN

Re: Выдернуть подстроку между разделителями из строки

kduk

Re: Выдернуть подстроку между разделителями из строки

ReNzRv

Re: Выдернуть подстроку между разделителями из строки

Azure

Re: Выдернуть подстроку между разделителями из строки

kduk

Re: Выдернуть подстроку между разделителями из строки

ALiEN

Re: Выдернуть подстроку между разделителями из строки

kduk

Re: Выдернуть подстроку между разделителями из строки

Azure

Re: Выдернуть подстроку между разделителями из строки

kduk

Re: Выдернуть подстроку между разделителями из строки

ALiEN

Re: Выдернуть подстроку между разделителями из строки

ReNzRv

Re: Выдернуть подстроку между разделителями из строки

Azure

Re: Выдернуть подстроку между разделителями из строки