RitmInMe Описание программы Оператор цифровой трансформации - Dilibrium / Дилибриум
Facebook    Twitter    Google+    LiveJournal    Мой Мир
ВКонтакте     Одноклассники

Font Size

Особенности интимной жизни ботов

Сложилось так, что мой домен ritminme.ru стал полноценно заполняться далеко не сразу. Создан он был 8 месяцев назад. Месяца 3 не заполнялся вообще. Пото́м туда была залита joomla с кучей прибамбасов. Я втиснул туда картинку заставки, пару-другую текстиков и на этом тормознул – готовность программы, под которую делался сайт, оставляла желать лучшего. Месяц назад мне резко разонравилось жить "в прыймах", и я купил хостинг на ukraine.com.ua. Естественно, домену от этого стало ещё легче – на нём теперь всего-то и было, что табличка " UKRAINE.com.ua: поздравляем, сайт создан!". Но аккурат к женскому празднику я малость подразобрался с джумлой, создал структуру сайта локально и запихал в неё какой-то минимум контента. 08.03.2013 сайт был залит на хостинг.

Как только "утихли восторги первой близости влюблённой пары", и адрес сайта стал достоянием мировой интернет-общественности (о нём узнали ещё два живых человека), я сунулся в логи и поизучал трафик за сутки.

Бот Google меня тыкнул носом в 404-ю ошибку (недосмотрел, и в некоторых ссылках перед index.php оставил ritminme, как было в локальном варианте). И вообще google.com/bot.html – самый трудяга. Заходили так же Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. и yandex.com/bots. Робот statdom.ru/bot.html заполз лишь за тем, чтобы имячко спросить да favicon.ico спереть. За то в 05:05:20 какой-то хрен с 89.189.191.30 полез на "RITMINME.ru/administrator/index.php". Были и ещё интересные запросы: посетители хотели странного, такого, которого у меня на сайте давно уже не водилось. Боты оказались памятливыми, и даже через месяц настойчиво осведомлялись о состоянии файлов структуры, сгинувшей на прошлом хостинге.

Тогда я решил посмотреть логи сайта-пустышки, и они оказались довольно-таки интересными. В основном, это были небольшие файлики (считанные килобайты). Но вот 15.02.13 боты как с цепи сорвались.

С 02:25:37 по 02:25:43 место, где в настоящее время красуется мой (пускай ещё и недозаполненный) сайт, шесть раз почтил своим вниманием yandex.com/bots. Он никак не хотел верить, что сайт пуст: файл robots.txt запрашивался дважды, а информация хостера о том, что сайт таки создан, была прочитана четырежды, после чего безутешный бот удалился.

Куда ему по настойчивости до бота "Бинго"! Этот заявился к вечернему чаю – и началось:

196.220.57.90

15/Feb/2013:18:27:42 +0200

"GET /administrator/ HTTP/1.0" 404 212 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

196.220.57.90

15/Feb/2013:18:27:43 +0200

"POST /administrator/index.php HTTP/1.0" 404 221 "http://ritminme.ru/administrator/index.php" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

И так 501 раз (10 минут). Что бот пытался втолковать несуществующему админу – для меня осталось загадкой. Но настойчивость впечатлила.

Интересы ботов от nigma.ru, statdom.ru и ещё кого-то не отличались от запросов Яндекса. Правда, ответ "404" на них производил впечатление, и они отваливали.

Вот бот от Google подошел к вопросу более обстоятельно. Не удовлетворившись джентльменским набором, он попытался провентилировать отсутствующие /register.php и /forums/register.php (но только GET, без POST), и проверил, не появились ли вновь сгинувшие текстики. А его графическая ипостась оставила вздохи по поводу более не существующего корявого лого.

А ещё кто-то неопознанный три раза переспросил запавшее ему в душу руководство оператора. Переспрашивал через 3-5 минут. Неужели это был человек, и я обманул чьи-то ожидания?

Ну и что из этого?

Казалось бы, вольно тем ботам по чужим сайтам бегать и пытаться через регистрацию пролезть! Сайтам-то от этого ни холодно, ни жарко (особенно – пустым). Тем не менее, минусы есть. В моём случае, кроме создания хоть и небольшого, но лишнего трафика на хостинге, после заливки на сайт нынешнего содержимого я получил плюху от антивируса Trend-Micro (если кто не знает, это – жутко крутой корпоративный антивирус под крылышком самого Microsoft-а). При попытке открыть мой сайт Trend-Micro орал, что сайт блокирован, т.к. опасен до такой степени, что он пользователю даже favicon.ico не позволит скачать. Видимо, у Trend-Micro есть свой бот, который потихоньку собирает информацию и ведёт базу сайтов. Мой ему попался неудачно, у алгоритма бота то ли от пустоты сайта, то ли от смены контента шарики за ролики заехали, и сайт был помещён в блэк-лист.

Правда, решить эту проблему удалось за какие-то сутки. На одной из запугивавших пользователя картинок была ссылка на сервис Trend-Micro (http://global.sitesafety.trendmicro.com/index.php), на котором зашедшему предлагается высказать своё мнение об этом некошерном сайте. Первоначально он классифицируется как

Dangerous
The latest tests indicate that this URL contains malicious software or could defraud visitors.
(Опасен. Последние тесты показывают, что этот URL содержит вредоносное программное обеспечение или может обмануть посетителей.)

Вариантов оценки всего два. В приблизительном переводе на русский:

1) это мерзкий, приставучий сайт.

2) от этого сайта дурно пахнет.

И это при том, что на сайт-то пользователя не пустили... Правда, мелким шрифтом предоставляется возможность высказать иное мнение ("Reclassify Request" ). И там – о, чудо! – можно сказать, что сайт мой белый и пушистый. Что я и сделал, назвавшись владельцем сайта и дав контактный е-мэйл Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. . На е-мэйл пришел запрос на подтверждение этой информации, после чего статус сайта поменялся на

Safe
The latest tests indicate that this URL contains no malicious software and shows no signs of fraud.
(Безопасен. Последние тесты показывают, что этот URL не содержит вредоносного программного обеспечения и не проявляет никаких признаков мошенничества.)

Как приятно, когда тебя считают джентльменом и верят на слово!

Но, к сожалению, не все последствия визитов ботов мною расхлёбаны. На данный момент сервис runfo.ru ( http://www.runfo.ru/ritminme.ru ) всё ещё упорно выставляет моему сайту статус 403 Forbidden. Причём в информации "О проекте" данного сервиса наличествует высокомерный отказ от всяческой связи с заинтересованными лицами – де, бот у нас умный, бот разберётся...

Резюме

Следовало не надеяться на заглушку, поставляемую при открытии хостинга, а самому создать файл robot.txt, где и выставить до поры до времени на контент своего сайта "NOINDEX, NOFOLLOW". Ведь всё равно на новый сайт роботов с поисковиков лучше за ручку приводить (путём регистрации сайта на соответствующем сервисе). Интересно, чего эту нехитрую штуку с robot.txt сами владельцы хостинга не сделали?

А что касается поисковиков, то первое место по результативности занимает бот Google: к концу первой недели доступности нового контента сайта по команде site:ritminme.ru индицируются 40 страниц сайта. Полностью охвачен первый и второй уровень меню, частично – третий. Хотя с третьим не ясно, появятся ли в индексе часть из существующих страниц вообще – на них содержится анализ классических произведений, т.е. их содержимое неуникально. А уникальные уже в индексе. Ошибок (по причине воспоминаний о прошлом состоянии сайта) – 10%. Ну, и ещё столько же внёс я, неоптимально спроектировав структуру ссылок на сайте.

Для сравнения: Yandex показывает только три ответа, и все не отражают нынешнее состояние сайта.

Rambler – два (с тем же успехом). Вообще-то, Rambler использует поисковую технологию Yandex, но, видимо, что-то делает с её результатами: после первого запроса к двум показанным результатам идёт приписка, что всего найдено результатов 6 (но как их увидеть, не поясняется). Если на полученной выдаче нажать ссылку "на сайте", то она становится точным повтором выдачи Yandex. Кстати, у Rambler-а сохранилась такая особенность, как явный доступ к сохраненным копиям (кратким снимкам страниц сайта на момент сканирования роботом). Yandex ссылку на копию стыдливо прячет справа от анонса материала и она становится видимой только при наведении курсора (если кто не знает - наличие невидимого текста на странице - один из смертных грехов сайтовладельца с точки зрения поисковика). А у Google копии (красивые!) тож спрятаны под невидимым знаком ">>".

А бот от Bing вообще непонятно за чем ломился. И результатов посещения бота Nigma пока что не видно...