Jump to content

Роботы на сайте - зачем?


Светлёнка
 Share

Recommended Posts

Всем доброго дня, вечера и т.д.!

Объясните пожалуйста, ко мне на сайт постоянно, практически каждый день, вылезает некий

Host - spider62.yandex.ru

IPadress - 93.158.137.121

А так же подобные ему, но с другими данными.

Кто это?

Я так понимаю, что это роботы. Но что им может быть надо?

Как они мне могут навредить?

У меня и сайт-то еще не работает...

Link to comment
Share on other sites

Радуйтесь. Чем чаще роботы яндекса и гугла вас посещают тем лучше. Они индексируют страницы.

Ещё есть роботы спамеры/взломщики, которые либо спамят ресурс, либо тестируют его на уязвимость.

Если у вас блог, то самые лушчие ваши друзья это роботы поисковиком, худшие это грабберы RSS, они воруют ваш контент.

если блог то почитайте: http://www.metrod.ru/20_02_2008/kak-zashhi...tenta-iz-bloga/

А вот пока сайт не работает, лучше запретите роботам смотреть его, при помощи файла roboots.txt погуглите как им пользоваться.

Если робот пришёл на сайт без контента в другой раз он на него придёт через гораздо более долгий промежуток.

Роботы хорошие я их люблю :blink: они уничтожат человечество :(

Link to comment
Share on other sites

Спасибо за ответ.

Если бы это были роботы яндекса, то я бы радовалась, но у меня сайт еще не зарегистрирован в поисковиках и внешних ссылок тоже пока нет.

  Quote
Ещё есть роботы спамеры/взломщики, которые либо спамят ресурс, либо тестируют его на уязвимость.

Каким образом это происходит? Что можно сделать, чтобы это предотвратить?

  Quote
А вот пока сайт не работает, лучше запретите роботам смотреть его, при помощи файла roboots.txt погуглите как им пользоваться.

Спасибо, буду искать.

Edited by Светлёнка
Link to comment
Share on other sites

http://www.metrod.ru/20_02_2008/kak-zashhi...tenta-iz-bloga/

тут написано как защититься от вовровства контента.

А роботы взломщики, не знаю, что делают знаю только, что они ищут в сайте уязвимости, отсюда следует, что если их нет, то ничего не произойдёт.

Да и вообще они довольно беспомощны, пока только беспомощны.

Link to comment
Share on other sites

  Quote
А роботы взломщики, не знаю, что делают знаю только, что они ищут в сайте уязвимости, отсюда следует, что если их нет, то ничего не произойдёт..

Извините за назойливость. А если есть уязвимости?

  Quote
Да и вообще они довольно беспомощны, пока только беспомощны.

Вы часом в секте не состоите? :blink:

Edited by Светлёнка
Link to comment
Share on other sites

  Светлёнка said:
Извините за назойливость. А если есть уязвимости?

Ну сами подумайте, что будет если есть уязвимости.

Короче, если говорить нерусским языком, то это пи**ец

  Светлёнка said:
Вы часом в секте не состоите? :blink:

Таких сект не может существовать.

Link to comment
Share on other sites

  Светлёнка said:
Каким образом это происходит? Что можно сделать, чтобы это предотвратить?

у меня подобные нехорошие визиты отслеживаются самописным логгером.

алгоритм такой:

проверяем запрос на наличие в нем стоп-слов. если встречаем, проверяем наличие флага был ли ранее уже запрос с таким-же стоп-словом с этойго айпи ->

если был - добавляем айпи в блеклист

если не был - просто ставим флаг что с этого айпи по такому-то стоп-слову уже было одно посещение, больше пока ничего не делаем (всякое бывает ведь, иногда маленькие дети балуются, начитавшись "хакера", на первый раз прощаем)

затем проверяем IP ->

если адрес в блеклисте, выдаем ошибку 403 Forbidden и завершаем работу

если нет - работаем как обычно

специфических стоп-слов не очень-то и много по сути - $_, SERVER, DOCUMENT_ROOT, http://, .php, .cgi, .pl - их набор зависит от того, что используется на сайте - ведь если не предусматриваешь что с твоего сайта могут уходить по ссылкам вида http://mysite.ru/goto=http://www.yandex.ru, любой запрос, содержащий http:// будет "незаконным". если же подобное возможно (например в каталоге ссылок), тогда надо фильтровать подробнее.

  Dimitry Wolotko said:
Роботы взломщики обычно имеют юзер-агент обычного браузера.

ко мне как-то чаще ломятся с пустым UA, либо прикидываясь гуглевским/неткрафтовским пауком, встречал и просто ; либо запятую, а "не-браузеров" где-то треть от силы

Link to comment
Share on other sites

  D.S.Denton said:
у меня подобные нехорошие визиты отслеживаются самописным логгером.

алгоритм такой:

проверяем запрос на наличие в нем стоп-слов. если встречаем, проверяем наличие флага был ли ранее уже запрос с таким-же стоп-словом с этойго айпи ->

если был - добавляем айпи в блеклист

если не был - просто ставим флаг что с этого айпи по такому-то стоп-слову уже было одно посещение, больше пока ничего не делаем (всякое бывает ведь, иногда маленькие дети балуются, начитавшись "хакера", на первый раз прощаем)

затем проверяем IP ->

если адрес в блеклисте, выдаем ошибку 403 Forbidden и завершаем работу

если нет - работаем как обычно

специфических стоп-слов не очень-то и много по сути - $_, SERVER, DOCUMENT_ROOT, http://, .php, .cgi, .pl - их набор зависит от того, что используется на сайте - ведь если не предусматриваешь что с твоего сайта могут уходить по ссылкам вида http://mysite.ru/goto=http://www.yandex.ru, любой запрос, содержащий http:// будет "незаконным". если же подобное возможно (например в каталоге ссылок), тогда надо фильтровать подробнее.

ко мне как-то чаще ломятся с пустым UA, либо прикидываясь гуглевским/неткрафтовским пауком, встречал и просто ; либо запятую, а "не-браузеров" где-то треть от силы

Вы очень подробно все написали, спасибо. Но есть одно маленькое НО:

:blink: Я почти ничего не поняла...

Что за флаги, что за стоп-слова, что за блеклист? Как проверяем?

У меня вопросов появилось еще больше.

Катастрофа!

Я не специалист (мягко сказано) в подобных делах и специфических слов я не понимаю...

  Dimitry Wolotko said:
Роботы взломщики обычно имеют юзер-агент обычного браузера.

Т.е., пример, который я привела это и есть, скорее всего взломщик?

Host - spider62.yandex.ru

IPadress - 93.158.137.121

agent-Yandex/1.01.001 (compatible; Win16; I)

или второй является взломщиком?:

Host - www.lexa.ru

IPadress - 213.59.0.94

stranica-/var/www/vhosts/stopkadr-sfm.ru/httpdocs/index.html

agent-Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

Link to comment
Share on other sites

  Quote
Что за флаги, что за стоп-слова, что за блеклист? Как проверяем?

флаг - условное название какой-либо метки, которая может иметь два значения: 1 или 0, истина (true) или ложь (false), да или нет

стоп-слово - опять же условное название какой-то последовательности символов, на которую надо обратить внимание (например для цензуры стоп-словами является любое слово из ненормативной лексики)

блеклист - blacklist - черный список, в который вносим нежелательных посетителей

  Quote
пример, который я привела это и есть, скорее всего взломщик?

нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

  Quote
второй является взломщиком?

вряд ли, раз "У меня и сайт-то еще не работает...", то кого он заинтересует с целью навредить?

логика отслеживания нехороших запросов вообще - если ты предусматриваешь на сайте ссылки типа htmlbook.ru/file.html, а вдруг кто-то запрашивает htmlbook.ru////index.php?$_SERVER['DOCUMENT_ROOT'], это явно набрано вручную в адресной строке (ну или программой), поскольку такую ссылку увидеть ни на одной твоей странице человек не мог, и даже вбить случайно такое невозможно

Link to comment
Share on other sites

  Игорь Ермаков said:
Ну сами подумайте, что будет если есть уязвимости.

Короче, если говорить нерусским языком, то это пи**ец

А я могу просто удалить страницу и загрузить заново, если мне навредили?

  Quote
Таких сект не может существовать.

Я пошутила, не сердитесь. Просто Вы так к роботам не равнодушны)

  D.S.Denton said:
флаг - условное название какой-либо метки, которая может иметь два значения: 1 или 0, истина (true) или ложь (false), да или нет

стоп-слово - опять же условное название какой-то последовательности символов, на которую надо обратить внимание (например для цензуры стоп-словами является любое слово из ненормативной лексики)

блеклист - blacklist - черный список, в который вносим нежелательных посетителей

нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

вряд ли, раз "У меня и сайт-то еще не работает...", то кого он заинтересует с целью навредить?

логика отслеживания нехороших запросов вообще - если ты предусматриваешь на сайте ссылки типа htmlbook.ru/file.html, а вдруг кто-то запрашивает htmlbook.ru////index.php?$_SERVER['DOCUMENT_ROOT'], это явно набрано вручную в адресной строке (ну или программой), поскольку такую ссылку увидеть ни на одной твоей странице человек не мог, и даже вбить случайно такое невозможно

Спасибо. Вроде более менее понятно. А как эти запросы отследить?

Link to comment
Share on other sites

  Quote
могу просто удалить страницу и загрузить заново, если мне навредили?

естественно

  Quote
как эти запросы отследить?

смотря где сайт размещается. хороший хостер дает возможность доступа к логам, тогда можно их читать иногда. для нестатических сайтов (т.е. где есть хотя бы минимальное программирование) проще написать для этого дополнительно пару десятков строчек

  Quote
Просто Вы так к роботам не равнодушны)

не мы такие - жизнь такая :blink:

Link to comment
Share on other sites

  D.S.Denton said:
естественно

Ну, значит, не все так страшно)

Правильно ли я поняла, что если на сайте появляется какой-либо спам, то код взломали и избавится от спама можно только исправив код или заменив страницу?

  Quote
смотря где сайт размещается. хороший хостер дает возможность доступа к логам, тогда можно их читать иногда. для нестатических сайтов (т.е. где есть хотя бы минимальное программирование) проще написать для этого дополнительно пару десятков строчек

Доступ есть, а вот строчки писать я не умею)

Спасибо большое за информацию!

Link to comment
Share on other sites

  Светлёнка said:
Ну, значит, не все так страшно)

Правильно ли я поняла, что если на сайте появляется какой-либо спам, то код взломали и избавится от спама можно только исправив код или заменив страницу?

Речь не совсем о спаме, спам - это еще полбеды, а вот внедрение зловредного кода посредством <iframe>...java script...</ifrme>, в частности я имею ввиду вот это и это.

Link to comment
Share on other sites

  rus said:
Речь не совсем о спаме, спам - это еще полбеды, а вот внедрение зловредного кода посредством <iframe>...java script...</ifrme>, в частности я имею ввиду вот это и это.

Мало знающий человек в этом не разберется(

Спасибо большое за помощь.

Link to comment
Share on other sites

  Светлёнка said:
Мало знающий человек в этом не разберется(

Спасибо большое за помощь.

Чистится это все только ручками. Заходим на фтп при помощи например Far manager и ищем строчки подобного зловредного кода и удаляем его. И ничего тут сложного нет. :D

P.S. не за что.

Link to comment
Share on other sites

  psywalker said:
Светлёнка У тебя фотка плохого качества B)

:D Меня это не беспокоит :D

Уж это я точно переживу)

А что, кого-то интересует качество аватарки? Даже не задумывалась над этим)))

  rus said:
Чистится это все только ручками. Заходим на фтп при помощи например Far manager и ищем строчки подобного зловредного кода и удаляем его. И ничего тут сложного нет. :)

P.S. не за что.

Ну если удалить строчки, то это действительно не сложно, буду следить.

Еще раз спасибо.

  Павел Билькис said:
psywalker, у тебя не лучше :)

+1

Edited by Светлёнка
Link to comment
Share on other sites

Павел Билькис

  Quote
psywalker, у тебя не лучше smile.gif

Ага, подумываю сменить нафиг :D

Светлёнка

  Quote
Светлёнка У тебя фотка плохого качества cool.gif

biggrin.gif Меня это не беспокоит biggrin.gif

Уж это я точно переживу)

А что, кого-то интересует качество аватарки? Даже не задумывалась над этим)))

Да нее, эт я просто к слову :D

Link to comment
Share on other sites

  psywalker said:
Блондин :D

Тогда логика понятна :D

А вообще, фотка размером 50 кб вообще не может быть хорошего качества (смотря что, правда, считать хорошим качеством).

Link to comment
Share on other sites

  Павел Билькис said:
Кстати говоря. У меня тут какая то лажа с хтмлбуком :) Все изображения отображаются отвратительного качества. Скрин прилагаю

128501cqter.jpg

Не, у меня лучше это все выглядит, хоть и не намного.

  D.S.Denton said:
нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

А какие еще поисковики известны? Я имею в виду адреса.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy