Форум русскоязычного сообщества Ubuntu


Хотите сделать посильный вклад в развитие Ubuntu и русскоязычного сообщества?
Помогите нам с документацией!

Автор Тема: Как сохранить все ссылки в текстовый файл?  (Прочитано 869 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Здравствуйте.
Помогите.
Хочу зайти на сайт https://forum.alpari.com и сохранить абсолютно все ссылки начинающиеся https://forum.alpari.com/index.php?/topic/
в текстовый файл. Как это сделать?

ТС не появлялся на Форуме более полугода по состоянию на 09/09/2019 (последняя явка: 01/02/2019). Модератором раздела принято решение закрыть тему.
--zg_nico
« Последнее редактирование: 09 Сентябрь 2019, 20:43:48 от zg_nico »

Оффлайн ALiEN175

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 4241
  • Capture the truth
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #1 : 18 Август 2018, 04:10:53 »
grep -Po 'https://forum\.alpari\.com/index\.php\?/topic/[^"\047]*'
ASUS P5K-C :: Intel Xeon E5450 :: 8 GB RAM :: Nvidia 8500GT :: XFCE
SAMSUNG N150 :: Intel Atom N450 :: 2 GB RAM :: Intel GMA3150 :: XFCE

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #2 : 18 Август 2018, 04:37:58 »
ALiEN175, Спасибо, а куда сохраняется? не вижу новых документов)

Оффлайн ALiEN175

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 4241
  • Capture the truth
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #3 : 18 Август 2018, 04:43:06 »
постановка задачи некорректна изначально. Неизвестно, откуда вы берете ссылки, и как там оканчивается ссылка.
Я просто взял линк https://forum.alpari.com/index.php?/topic/ и пропуcтил через grep
(Нажмите, чтобы показать/скрыть)

Пользователь добавил сообщение 18 Август 2018, 04:45:45:
Если хотите сохранить вывод, достаточно обычного перенаправления
command > file
« Последнее редактирование: 18 Август 2018, 04:45:45 от ALiEN175 »
ASUS P5K-C :: Intel Xeon E5450 :: 8 GB RAM :: Nvidia 8500GT :: XFCE
SAMSUNG N150 :: Intel Atom N450 :: 2 GB RAM :: Intel GMA3150 :: XFCE

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #4 : 18 Август 2018, 05:08:45 »
ALiEN175, да, прошу прощения за такую формулировку, но вы всё правильно поняли. Нужно перейти на сайт  собрать все ссылки начало которых такое.
Выполняю
curl -s 'https://forum.alpari.com/index.php?/topic/' | grep -Po 'https://forum\.alpari\.com/index\.php\?/topic/[^"\047]*'  > fileALLно ссылок сохранилось 30, их гораздо больше на сайте. Нет таких https://forum.alpari.com/index.php?/topic/50000-несколько-скриптов-для-упрощения-торговли/&page=2
https://forum.alpari.com/index.php?/topic/50000-несколько-скриптов-для-упрощения-торговли/
Заканчиваются, в основном цифрой, примерно так: &page=2
« Последнее редактирование: 18 Август 2018, 05:24:11 от daridaL »

Оффлайн victor00000

  • Забанен
  • Старожил
  • *
  • Сообщений: 15570
  • Глухонемой (Deaf)
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #5 : 18 Август 2018, 05:17:33 »
такая заблокировать сайти рабоочих?
Нельзя друзья, дулу - AnrDaemon видите?
~.o

Оффлайн ALiEN175

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 4241
  • Capture the truth
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #6 : 18 Август 2018, 05:19:59 »
Нет таких
Русские символы преобразуются в что-то вроде %D0%B1%D0 - они очень даже русские для сети интернет, но для пользователя они, увы, выглядят именно так. Была какая-то утилита для преобразования "неудобоваримых" символов, но сейчас уже не вспомню...
ASUS P5K-C :: Intel Xeon E5450 :: 8 GB RAM :: Nvidia 8500GT :: XFCE
SAMSUNG N150 :: Intel Atom N450 :: 2 GB RAM :: Intel GMA3150 :: XFCE

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #7 : 18 Август 2018, 05:25:15 »
ALiEN175, имела ввиду количество ссылок)
Только здесь https://forum.alpari.com/index.php?/topic/26516-%D1%81%D0%BE%D0%B2%D0%B5%D1%82%D0%BD%D0%B8%D0%BA-%D1%87%D0%B5%D0%B1%D1%83%D1%80%D0%B0%D1%88%D0%BA%D0%B0/

164 страницы диалогов юзеров,  файле сохранено 30 ссылок
« Последнее редактирование: 18 Август 2018, 05:39:12 от daridaL »

Оффлайн ALiEN175

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 4241
  • Capture the truth
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #8 : 18 Август 2018, 05:33:35 »
daridaL, без разницы, согласно вашей изначальной задаче - всё верно.

$: curl -s 'https://forum.alpari.com/index.php?/topic/' | grep -Po 'https://forum\.alpari\.com/index\.php\?/topic/[^"\047]*' | wc -l
32

$: curl -s 'https://forum.alpari.com/index.php?/topic/' | grep -o 'alpari.com/index.php?/topic' | wc -l
32

Пользователь добавил сообщение 18 Август 2018, 05:38:00:
если вы каждую страничку форума собираетесь парсить на предмет совпадения с шаблоном - это совершенно другие программы и технологии. Постарайтесь на будущее ваши желания выражать максимально подробно.
« Последнее редактирование: 18 Август 2018, 05:39:37 от ALiEN175 »
ASUS P5K-C :: Intel Xeon E5450 :: 8 GB RAM :: Nvidia 8500GT :: XFCE
SAMSUNG N150 :: Intel Atom N450 :: 2 GB RAM :: Intel GMA3150 :: XFCE

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #9 : 18 Август 2018, 05:43:06 »
ALiEN175, да, нужно сохранить каждую ссылку которая так начинается. Каким способом можно сделать?
Постарайтесь на будущее ваши желания выражать максимально подробно.
Топик подправила)
« Последнее редактирование: 18 Август 2018, 05:48:44 от daridaL »

Оффлайн victor00000

  • Забанен
  • Старожил
  • *
  • Сообщений: 15570
  • Глухонемой (Deaf)
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #10 : 18 Август 2018, 06:03:44 »
h++ps://forum.alpari.com/index.php?/topic/26516-советник-чебурашка/
перевод, ещё?
Нельзя друзья, дулу - AnrDaemon видите?
~.o

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #11 : 18 Август 2018, 06:14:09 »
victor00000, )))спасибо, переводить ненужно, я их все собрать хочу в текстовый файл. В каком виде не имеет значения.
« Последнее редактирование: 18 Август 2018, 06:16:06 от daridaL »

Оффлайн victor00000

  • Забанен
  • Старожил
  • *
  • Сообщений: 15570
  • Глухонемой (Deaf)
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #12 : 18 Август 2018, 06:34:34 »
grep -Po 'https://forum\.alpari\.com/index\.php\?/topic/[^"\047]*'

направа добавить
... | sed 's/\%/\n\\\\x/g;s/$/\\\\n/g'  | xargs -I {} bash -c 'printf "{}";sleep .1'
будет перевод тяжело.)
« Последнее редактирование: 18 Август 2018, 06:36:51 от victor00000 »
Нельзя друзья, дулу - AnrDaemon видите?
~.o

Оффлайн daridaL

  • Автор темы
  • Участник
  • *
  • Сообщений: 114
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #13 : 18 Август 2018, 06:51:00 »
victor00000, спасибо, может быть когда и пригодится), но сейчас, мне ссылки, нужно просто собрать с сайта.

Оффлайн ReNzRv

  • Старожил
  • *
  • Сообщений: 2628
    • Просмотр профиля
Re: Как сохранить все ссылки в текстовый файл?
« Ответ #14 : 18 Август 2018, 09:34:36 »
wget -r --spider 'https://forum.alpari.com/' 2>&1 | sed -u 's/%\(..\)/\\\\x\1/g' | xargs -l1 echo -e | grep --line-buffered -Po 'https://forum\.alpari\.com/index\.php\?/topic/\S+' | awk -W interactive '($0 != p){print; print >> "site_links"}{p=$0}'
вывод дублируется в файл site_links

 

Страница сгенерирована за 0.177 секунд. Запросов: 22.