Форум русскоязычного сообщества Ubuntu


Увидели сообщение с непонятной ссылкой, спам, непристойность или оскорбление?
Воспользуйтесь ссылкой «Сообщить модератору» рядом с сообщением!

Автор Тема: Получение информации с сайта  (Прочитано 889 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Сэм

  • Автор темы
  • Активист
  • *
  • Сообщений: 421
  • чиновник и народ
    • Просмотр профиля
Получение информации с сайта
« : 13 Октября 2017, 06:35:20 »
Добрый день.
Есть вот такой сайт http://app.echr.coe.int/SOP/index.aspx?lg=en  где вводя номер (в формате 2/17 (числа взяты условно, для примера), где первое число - номер дела, после косой черты - год) можно получить информацию по делу (там нет никакой личной информации, только фамилия заявителя и номер дела, проверьте, если есть в этом необходимость)
Подскажите, есть ли возможность автоматизировать процесс ввода номера дела и сохранения результатов на комп, к примеру в таблицы? А то вручную вводить даже сто цифр это сложновато.
Или хотя бы подскажите, в каком направлении копать.
Спасибо.

ТС не появлялся на Форуме более трех месяцев по состоянию на 05/12/2019 (последняя явка: 30/07/2019). Модератором раздела принято решение закрыть тему.
--zg_nico
« Последнее редактирование: 05 Декабря 2019, 09:05:54 от zg_nico »

Оффлайн scsiman

  • Активист
  • *
  • Сообщений: 344
    • Просмотр профиля
Re: Получение информации с сайта
« Ответ #1 : 13 Октября 2017, 10:14:55 »
подскажите, в каком направлении копать
Headless browser, scraping (к сожалению, основной объём информации будет на английском). Можно делать автоматически практически всё, что может сделать человек с браузером.

Если не стрелять из пушки по воробьям, то можно попробовать тупо генерить POST-запрос curl'ом или иным способом (сначала посмотрите в исходнике страницы, какие поля у формы и как надо заполнять, возможно, понадобится отсылать cookie и т.п.).
Dell Studio XPS 16, Ubuntu 16.04 LTS (Home).
HP nx6110, Ubuntu 8.04 LTS => 10.04 LTS (Home).

Оффлайн EvangelionDeath

  • Администратор
  • Старожил
  • *
  • Сообщений: 3487
  • Ubuntu 22.04 х64
    • Просмотр профиля
Re: Получение информации с сайта
« Ответ #2 : 13 Октября 2017, 10:44:30 »
Вообще-то для этого подойдет обычный граббер страниц реализованый через курл + парсер (если надо все "аккуратно") в табличку. В граббере же реализовать генерацию данных для пост-реквеста
HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04

Оффлайн Сэм

  • Автор темы
  • Активист
  • *
  • Сообщений: 421
  • чиновник и народ
    • Просмотр профиля
Re: Получение информации с сайта
« Ответ #3 : 13 Октября 2017, 22:40:07 »
scsiman,
(сначала посмотрите в исходнике страницы, какие поля у формы и как надо заполнять, возможно, понадобится отсылать cookie и т.п.)
вот исходник страницы - посмотрите, пожалуйста, смогу ли я реализовать свою задачу по Вашим советам, имея нулевые знания в этом вопросе (но есть желание и необходимость реализовать такую задачу)
Код: (html5) [Выделить]
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
    <head id="Head1"><title>

</title><link href="Style/CSS/BootStrap/EchrBootStrap.css" rel="stylesheet" />
        <script type="text/javascript">

            function DivStatus(nom) {
                var e = document.getElementById(nom);
                if (document.getElementById && document.getElementById(nom)) // Pour les navigateurs récents
                {           
                    if (e.style.display == 'block')
                        e.style.display = 'none';
                    else
                        e.style.display = 'block';
                }
                else if (document.all && document.all[nom]) // Pour les veilles versions
                {
                    if (e.style.display == 'block')
                        e.style.display = 'none';
                    else
                        e.style.display = 'block';
                }
                else if (document.layers && document.layers[nom]) // Pour les très veilles versions
                {
                    if (e.style.display == 'block')
                        e.style.display = 'none';
                    else
                        e.style.display = 'block';
                }
            }   
        </script>
    </head>
    <body>

        <div class="EchrPageWrapper">
            <div class="EchrPageBanner">
                <div class="EchrAppText">
                   <span id="LabelTitle">State of Proceedings Online</span>                 
                </div>
                <div class="EchrCourtLogo" ></div>
                <div class="EchrCourtSearch" >
                    <div class="EchrFooterTopMenu">

                    </div>
                    <div class="right-inner-addon">

                    </div>
                </div>
            </div>

            <div id="page" class="EchrPageContent ">
               
                    <form name="form1" method="post" action="./index.aspx?lg=en" id="form1">
<div>
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwUJNjc2MDg0ODgzD2QWBAIDDw8WAh4EVGV4dAUbU3RhdGUgb2YgUHJvY2VlZGluZ3MgT25saW5lZGQCBQ9kFgQCAQ8PFgIeB1Zpc2libGVnZBYSAgEPDxYCHwAFIFBsZWFzZSBlbnRlciBBcHBsaWNhdGlvbiBudW1iZXI6ZGQCBQ8PFgIfAAUGU3VibWl0ZGQCBw8PFgIfAAUFQ2xlYXJkZAIJDxYCHwFoZAILDw8WAh8ABZwBVGhlIENvdXJ04oCZcyBTdGF0ZSBvZiBQcm9jZWVkaW5ncyAoU09QKSBzZWFyY2ggZW5naW5lIGVuYWJsZXMgcGFydGllcyB0byBmaW5kIG91dCB0aGUgY3VycmVudCBwcm9jZWR1cmFsIHN0YXRlIG9mIGFuIGFwcGxpY2F0aW9uIHNvbGVseSBmb3IgY2FzZXMgdGhhdCBhcmU6ZGQCDQ8PFgIfAAUhQWxsb2NhdGVkIHRvIGEganVkaWNpYWwgZm9ybWF0aW9uZGQCDw8PFgIfAAUNTm90IGFub255bW91c2RkAhEPDxYCHwAFS1BlbmRpbmcgYmVmb3JlIHRoZSBDb3VydCBvciBoYXZlIGJlZW4gZGlzcG9zZWQgb2Ygd2l0aGluIHRoZSBsYXN0IHR3byB5ZWFyc2RkAhMPDxYCHwAFpgJJZiB0aGUgYXBwbGljYXRpb24geW91IGFyZSBsb29raW5nIGZvciBkb2VzIG5vdCBtZWV0IHRoZSBhYm92ZSBjcml0ZXJpYSB0aGUgZm9sbG93aW5nIG1lc3NhZ2Ugd2lsbCBhcHBlYXI6IOKAnE5vIGluZm9ybWF0aW9uIGNhbiBiZSBnaXZlbiBmb3IgdGhpcyBhcHBsaWNhdGlvbi7igJ0gUGxlYXNlIG5vdGUgdGhhdCB0aGUgaW5mb3JtYXRpb24gcmVsYXRpbmcgdG8gdGhlIFNPUCBpcyBhdmFpbGFibGUgdHdvIG1vbnRocyBhZnRlciBhIGNoYW5nZSBpbiB0aGUgc3RhdGUgb2YgcHJvY2VlZGluZ3MgZm9yIGEgY2FzZS5kZAIDD2QWEgIBDw8WAh8ABQRCYWNrZGQCAw8PFgIfAAUSQXBwbGljYXRpb24gbnVtYmVyZGQCBw8PFgIfAAURQXBwbGljYXRpb24gdGl0bGVkZAILDw8WAh8ABRZEYXRlIG9mIEludHJvZHVjdGlvbg0KZGQCDw8PFgIfAAUYTmFtZSBvZiByZXByZXNlbnRhdGl2ZQ0KZGQCEw8PFgIfAAUeQ3VycmVudCBzdGF0ZSBvZiBwcm9jZWVkaW5ncw0KZGQCFw8PFgIfAAUSTGFzdCBtYWpvciBldmVudA0KZGQCHQ8PFgIfAAUWTGlzdCBvZiBtYWpvciBldmVudHMNCmRkAh8PPCsAEQIBEBYCZgIBFgI8KwAFAQAWAh4KSGVhZGVyVGV4dAUNRGVzY3JpcHRpb24NCjwrAAUBABYCHwIFDEV2ZW50IGRhdGUNChYCZmYMFCsAAGQYAQUGZ3ZMTUVTD2dkztYVyFhsEL2tNiofrfNIZdaqsGBRuQyeexgzV3wLtAc=" />
</div>

<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['form1'];
if (!theForm) {
    theForm = document.form1;
}
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }
}
//]]>
</script>


<script src="/SOP/WebResource.axd?d=jX15bJgrJ_AQCuTUruirEr3I3b4RcchybQh_LlHi9b9dh6lZl9tZwDlwHqx5UqQNH9RvrsHZ9RjDw9EcAyiTqs3jTGf-J0w8mMD_UPPqKjA1&amp;t=635793099671809273" type="text/javascript"></script>


<script src="/SOP/WebResource.axd?d=9iE7u--KcvG5D9DC7gguKyWWceHPRb9ew2t8GQtM8pha29TpLJZQ_AUjr6wR5bNYC6wYGGqSH0lYsbTmXg7s4_x9--qDLLKS_wi08TadvVk1&amp;t=635793099671809273" type="text/javascript"></script>
<div>

<input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="54BB3970" />
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__EVENTVALIDATION" id="__EVENTVALIDATION" value="/wEdAASCizyJhlhd6knDuY4QNQlbatUjpvtyhUoGODrBzJzPAKLcDRVuCbay81zOIpB5+7B13HaNCmKPXwtSIMJvlpwqAOnkxI+pox26HpPEeetStpi0sDt7LEB7neYS4iEFkf4=" />
</div>
                   
                         <div class="SOPPageContentCenter">
                            <div id="SearchPanel" style="font-weight:bold;">

                                 <br />
                                 <br />
                                <center>
                                    <span id="Label1" class="SOPTextHead">Please enter Application number:</span>
                                    <input name="tbregno" type="text" id="tbregno" class="SOPInput" />
                                    <input type="submit" name="btngetdoc" value="Submit" id="btngetdoc" class="btn btn-primary" />
                                    <input type="submit" name="btnClear" value="Clear" id="btnClear" class="btn btn-default" />
                                </center>
                                <br />
                               
                                <br />
                                <div class="SOPHighlight" >
                                     <span id="LabelIntro1">The Court’s State of Proceedings (SOP) search engine enables parties to find out the current procedural state of an application solely for cases that are:</span>
                                   
                                    <ul>
                                        <li><span id="LabelIntro2">Allocated to a judicial formation</span></li>
                                        <li><span id="LabelIntro3">Not anonymous</span></li>
                                        <li><span id="LabelIntro4">Pending before the Court or have been disposed of within the last two years</span></li>
                                    </ul>
                                    <span id="LabelIntro5">If the application you are looking for does not meet the above criteria the following message will appear: “No information can be given for this application.” Please note that the information relating to the SOP is available two months after a change in the state of proceedings for a case.</span>
                                </div>
                           
</div>
                        </div>
                         

                           

                       
                   

<script type="text/javascript">
//<![CDATA[
WebForm_AutoFocus('tbregno');//]]>
</script>
</form>
               
            </div>

            <div class="EchrPageFooter" id="FooterPage">

           

            </div>
        </div>

    </body>
</html>
« Последнее редактирование: 14 Октября 2017, 00:12:04 от Azure »

 

Страница сгенерирована за 0.071 секунд. Запросов: 23.