Jump to content

Роботы на сайте - зачем?


Светлёнка
 Share

Recommended Posts

Всем доброго дня, вечера и т.д.!

Объясните пожалуйста, ко мне на сайт постоянно, практически каждый день, вылезает некий

Host - spider62.yandex.ru

IPadress - 93.158.137.121

А так же подобные ему, но с другими данными.

Кто это?

Я так понимаю, что это роботы. Но что им может быть надо?

Как они мне могут навредить?

У меня и сайт-то еще не работает...

Link to comment
Share on other sites

Радуйтесь. Чем чаще роботы яндекса и гугла вас посещают тем лучше. Они индексируют страницы.

Ещё есть роботы спамеры/взломщики, которые либо спамят ресурс, либо тестируют его на уязвимость.

Если у вас блог, то самые лушчие ваши друзья это роботы поисковиком, худшие это грабберы RSS, они воруют ваш контент.

если блог то почитайте: http://www.metrod.ru/20_02_2008/kak-zashhi...tenta-iz-bloga/

А вот пока сайт не работает, лучше запретите роботам смотреть его, при помощи файла roboots.txt погуглите как им пользоваться.

Если робот пришёл на сайт без контента в другой раз он на него придёт через гораздо более долгий промежуток.

Роботы хорошие я их люблю :blink: они уничтожат человечество :(

Link to comment
Share on other sites

Спасибо за ответ.

Если бы это были роботы яндекса, то я бы радовалась, но у меня сайт еще не зарегистрирован в поисковиках и внешних ссылок тоже пока нет.

Ещё есть роботы спамеры/взломщики, которые либо спамят ресурс, либо тестируют его на уязвимость.

Каким образом это происходит? Что можно сделать, чтобы это предотвратить?

А вот пока сайт не работает, лучше запретите роботам смотреть его, при помощи файла roboots.txt погуглите как им пользоваться.

Спасибо, буду искать.

Edited by Светлёнка
Link to comment
Share on other sites

http://www.metrod.ru/20_02_2008/kak-zashhi...tenta-iz-bloga/

тут написано как защититься от вовровства контента.

А роботы взломщики, не знаю, что делают знаю только, что они ищут в сайте уязвимости, отсюда следует, что если их нет, то ничего не произойдёт.

Да и вообще они довольно беспомощны, пока только беспомощны.

Link to comment
Share on other sites

А роботы взломщики, не знаю, что делают знаю только, что они ищут в сайте уязвимости, отсюда следует, что если их нет, то ничего не произойдёт..

Извините за назойливость. А если есть уязвимости?

Да и вообще они довольно беспомощны, пока только беспомощны.

Вы часом в секте не состоите? :blink:

Edited by Светлёнка
Link to comment
Share on other sites

Извините за назойливость. А если есть уязвимости?

Ну сами подумайте, что будет если есть уязвимости.

Короче, если говорить нерусским языком, то это пи**ец

Вы часом в секте не состоите? :blink:

Таких сект не может существовать.

Link to comment
Share on other sites

Каким образом это происходит? Что можно сделать, чтобы это предотвратить?

у меня подобные нехорошие визиты отслеживаются самописным логгером.

алгоритм такой:

проверяем запрос на наличие в нем стоп-слов. если встречаем, проверяем наличие флага был ли ранее уже запрос с таким-же стоп-словом с этойго айпи ->

если был - добавляем айпи в блеклист

если не был - просто ставим флаг что с этого айпи по такому-то стоп-слову уже было одно посещение, больше пока ничего не делаем (всякое бывает ведь, иногда маленькие дети балуются, начитавшись "хакера", на первый раз прощаем)

затем проверяем IP ->

если адрес в блеклисте, выдаем ошибку 403 Forbidden и завершаем работу

если нет - работаем как обычно

специфических стоп-слов не очень-то и много по сути - $_, SERVER, DOCUMENT_ROOT, http://, .php, .cgi, .pl - их набор зависит от того, что используется на сайте - ведь если не предусматриваешь что с твоего сайта могут уходить по ссылкам вида http://mysite.ru/goto=http://www.yandex.ru, любой запрос, содержащий http:// будет "незаконным". если же подобное возможно (например в каталоге ссылок), тогда надо фильтровать подробнее.

Роботы взломщики обычно имеют юзер-агент обычного браузера.

ко мне как-то чаще ломятся с пустым UA, либо прикидываясь гуглевским/неткрафтовским пауком, встречал и просто ; либо запятую, а "не-браузеров" где-то треть от силы

Link to comment
Share on other sites

у меня подобные нехорошие визиты отслеживаются самописным логгером.

алгоритм такой:

проверяем запрос на наличие в нем стоп-слов. если встречаем, проверяем наличие флага был ли ранее уже запрос с таким-же стоп-словом с этойго айпи ->

если был - добавляем айпи в блеклист

если не был - просто ставим флаг что с этого айпи по такому-то стоп-слову уже было одно посещение, больше пока ничего не делаем (всякое бывает ведь, иногда маленькие дети балуются, начитавшись "хакера", на первый раз прощаем)

затем проверяем IP ->

если адрес в блеклисте, выдаем ошибку 403 Forbidden и завершаем работу

если нет - работаем как обычно

специфических стоп-слов не очень-то и много по сути - $_, SERVER, DOCUMENT_ROOT, http://, .php, .cgi, .pl - их набор зависит от того, что используется на сайте - ведь если не предусматриваешь что с твоего сайта могут уходить по ссылкам вида http://mysite.ru/goto=http://www.yandex.ru, любой запрос, содержащий http:// будет "незаконным". если же подобное возможно (например в каталоге ссылок), тогда надо фильтровать подробнее.

ко мне как-то чаще ломятся с пустым UA, либо прикидываясь гуглевским/неткрафтовским пауком, встречал и просто ; либо запятую, а "не-браузеров" где-то треть от силы

Вы очень подробно все написали, спасибо. Но есть одно маленькое НО:

:blink: Я почти ничего не поняла...

Что за флаги, что за стоп-слова, что за блеклист? Как проверяем?

У меня вопросов появилось еще больше.

Катастрофа!

Я не специалист (мягко сказано) в подобных делах и специфических слов я не понимаю...

Роботы взломщики обычно имеют юзер-агент обычного браузера.

Т.е., пример, который я привела это и есть, скорее всего взломщик?

Host - spider62.yandex.ru

IPadress - 93.158.137.121

agent-Yandex/1.01.001 (compatible; Win16; I)

или второй является взломщиком?:

Host - www.lexa.ru

IPadress - 213.59.0.94

stranica-/var/www/vhosts/stopkadr-sfm.ru/httpdocs/index.html

agent-Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

Link to comment
Share on other sites

Что за флаги, что за стоп-слова, что за блеклист? Как проверяем?

флаг - условное название какой-либо метки, которая может иметь два значения: 1 или 0, истина (true) или ложь (false), да или нет

стоп-слово - опять же условное название какой-то последовательности символов, на которую надо обратить внимание (например для цензуры стоп-словами является любое слово из ненормативной лексики)

блеклист - blacklist - черный список, в который вносим нежелательных посетителей

пример, который я привела это и есть, скорее всего взломщик?

нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

второй является взломщиком?

вряд ли, раз "У меня и сайт-то еще не работает...", то кого он заинтересует с целью навредить?

логика отслеживания нехороших запросов вообще - если ты предусматриваешь на сайте ссылки типа htmlbook.ru/file.html, а вдруг кто-то запрашивает htmlbook.ru////index.php?$_SERVER['DOCUMENT_ROOT'], это явно набрано вручную в адресной строке (ну или программой), поскольку такую ссылку увидеть ни на одной твоей странице человек не мог, и даже вбить случайно такое невозможно

Link to comment
Share on other sites

Ну сами подумайте, что будет если есть уязвимости.

Короче, если говорить нерусским языком, то это пи**ец

А я могу просто удалить страницу и загрузить заново, если мне навредили?

Таких сект не может существовать.

Я пошутила, не сердитесь. Просто Вы так к роботам не равнодушны)

флаг - условное название какой-либо метки, которая может иметь два значения: 1 или 0, истина (true) или ложь (false), да или нет

стоп-слово - опять же условное название какой-то последовательности символов, на которую надо обратить внимание (например для цензуры стоп-словами является любое слово из ненормативной лексики)

блеклист - blacklist - черный список, в который вносим нежелательных посетителей

нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

вряд ли, раз "У меня и сайт-то еще не работает...", то кого он заинтересует с целью навредить?

логика отслеживания нехороших запросов вообще - если ты предусматриваешь на сайте ссылки типа htmlbook.ru/file.html, а вдруг кто-то запрашивает htmlbook.ru////index.php?$_SERVER['DOCUMENT_ROOT'], это явно набрано вручную в адресной строке (ну или программой), поскольку такую ссылку увидеть ни на одной твоей странице человек не мог, и даже вбить случайно такое невозможно

Спасибо. Вроде более менее понятно. А как эти запросы отследить?

Link to comment
Share on other sites

могу просто удалить страницу и загрузить заново, если мне навредили?

естественно

как эти запросы отследить?

смотря где сайт размещается. хороший хостер дает возможность доступа к логам, тогда можно их читать иногда. для нестатических сайтов (т.е. где есть хотя бы минимальное программирование) проще написать для этого дополнительно пару десятков строчек

Просто Вы так к роботам не равнодушны)

не мы такие - жизнь такая :blink:

Link to comment
Share on other sites

естественно

Ну, значит, не все так страшно)

Правильно ли я поняла, что если на сайте появляется какой-либо спам, то код взломали и избавится от спама можно только исправив код или заменив страницу?

смотря где сайт размещается. хороший хостер дает возможность доступа к логам, тогда можно их читать иногда. для нестатических сайтов (т.е. где есть хотя бы минимальное программирование) проще написать для этого дополнительно пару десятков строчек

Доступ есть, а вот строчки писать я не умею)

Спасибо большое за информацию!

Link to comment
Share on other sites

Ну, значит, не все так страшно)

Правильно ли я поняла, что если на сайте появляется какой-либо спам, то код взломали и избавится от спама можно только исправив код или заменив страницу?

Речь не совсем о спаме, спам - это еще полбеды, а вот внедрение зловредного кода посредством <iframe>...java script...</ifrme>, в частности я имею ввиду вот это и это.

Link to comment
Share on other sites

Речь не совсем о спаме, спам - это еще полбеды, а вот внедрение зловредного кода посредством <iframe>...java script...</ifrme>, в частности я имею ввиду вот это и это.

Мало знающий человек в этом не разберется(

Спасибо большое за помощь.

Link to comment
Share on other sites

Мало знающий человек в этом не разберется(

Спасибо большое за помощь.

Чистится это все только ручками. Заходим на фтп при помощи например Far manager и ищем строчки подобного зловредного кода и удаляем его. И ничего тут сложного нет. :D

P.S. не за что.

Link to comment
Share on other sites

Светлёнка У тебя фотка плохого качества B)

:D Меня это не беспокоит :D

Уж это я точно переживу)

А что, кого-то интересует качество аватарки? Даже не задумывалась над этим)))

Чистится это все только ручками. Заходим на фтп при помощи например Far manager и ищем строчки подобного зловредного кода и удаляем его. И ничего тут сложного нет. :)

P.S. не за что.

Ну если удалить строчки, то это действительно не сложно, буду следить.

Еще раз спасибо.

psywalker, у тебя не лучше :)

+1

Edited by Светлёнка
Link to comment
Share on other sites

Павел Билькис

psywalker, у тебя не лучше smile.gif

Ага, подумываю сменить нафиг :D

Светлёнка

Светлёнка У тебя фотка плохого качества cool.gif

biggrin.gif Меня это не беспокоит biggrin.gif

Уж это я точно переживу)

А что, кого-то интересует качество аватарки? Даже не задумывалась над этим)))

Да нее, эт я просто к слову :D

Link to comment
Share on other sites

Блондин :D

Тогда логика понятна :D

А вообще, фотка размером 50 кб вообще не может быть хорошего качества (смотря что, правда, считать хорошим качеством).

Link to comment
Share on other sites

Кстати говоря. У меня тут какая то лажа с хтмлбуком :) Все изображения отображаются отвратительного качества. Скрин прилагаю

128501cqter.jpg

Не, у меня лучше это все выглядит, хоть и не намного.

нет, это обычный поисковик яндекса. они ходят с адресов 93.158.*.*

А какие еще поисковики известны? Я имею в виду адреса.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy