Здравствуйте, друзья! В общей сложности сайтостроением я занимаюсь около 6 лет. Не знаю, много это или мало, но не в этом суть. За этот период времени я поменял двух хостинг-провайдеров – сейчас у третьего.

Защищаемся от лишних поисковых ботов и снижаем нагрузку на сервер

Вывод, который я сделал для себя на основании собственного опыта, такой: в успешном продвижении сайта огромную роль играют качество работы хостера и мощности сервера, на котором располагаются сайты. Поисковики однозначно не любят ресурсы, которые постоянно падают и находятся вне зоны доступа. Поэтому лично мне смешно, когда люди с упоением рассказывают о том, что они платят за хостинг всего лишь доллар в месяц. По умолчанию, не может быть, что такой хостинг в состоянии предоставить качественные услуги.

Мой выбор – хороший и надежный хостинг-провайдер и дорогой тариф, предполагающий высокую мощность сервера. А поскольку до VDS я пока еще не дорос, да и особой нужды в этом пока не ощущаю, то мне вполне достаточно персонального веб-сервера, в принципе, считающегося по мощности удобной альтернативой VDS.

Но при этом и «на старуху бывает проруха». Во-первых, «железки» имеют свойство ломаться, а потому сбои бывают на любом оборудовании. Во-вторых, существует ряд внешних факторов, которые могут оказать существенное влияние на работоспособность сайтов.

Положительным для вебмастера фактором, перегружающим сервер, является рост посещаемости, отрицательными факторами – ддос-атаки, а также лишние поисковые боты, «шныряющие» по сайтам.

Некоторое время назад я увлекся темой продвижения сайтов через социальные сети. К примеру, в настоящее время у меня организован постинг со своих сайтов в более чем 150 твиттер-аккаунтов. Посещалки особой это пока не дает, а вот в ускорении индексации новых страниц, бесспорно помогает. Но, поисковые боты…

Недавно получил сообщение от хостера о том, что им выявлены серьезные нагрузки на сервер от действий поисковых ботов и приводится большой список этих ботов. Фактически получается своего рода небольшая ддос-атака, когда этими ботами в течение нескольких секунд запрашиваются сотни страниц сайтов.

Как защититься от нежелательных поисковых ботов? Недолго думая, поискал в интернете и нашел такое решение – дополнить файл .htaccess следующим содержимым:


order allow,deny
allow from all
# Далее список юзерагентов которым мы запрещаем доступ
SetEnvIfNoCase User-Agent JS-Kit bad_bot
SetEnvIfNoCase User-Agent PostRank bad_bot
SetEnvIfNoCase User-Agent Python-urllib bad_bot
SetEnvIfNoCase User-Agent UnwindFetchor bad_bot
SetEnvIfNoCase User-Agent facebookexternalhit bad_bot
SetEnvIfNoCase User-Agent TweetmemeBot bad_bot
SetEnvIfNoCase User-Agent Butterfly bad_bot
SetEnvIfNoCase User-Agent MFE_expand bad_bot
SetEnvIfNoCase User-Agent Java bad_bot
SetEnvIfNoCase User-Agent Summify bad_bot
SetEnvIfNoCase User-Agent MetaURI bad_bot
SetEnvIfNoCase User-Agent FlipboardProxy bad_bot
SetEnvIfNoCase User-Agent ScribdReader bad_bot
SetEnvIfNoCase User-Agent RockMelt bad_bot
SetEnvIfNoCase User-Agent InAGist bad_bot
SetEnvIfNoCase User-Agent NING bad_bot
SetEnvIfNoCase User-Agent TweetedTimes bad_bot
SetEnvIfNoCase User-Agent PaperLiBot bad_bot
SetEnvIfNoCase User-Agent Library bad_bot
SetEnvIfNoCase User-Agent Ezooms bad_bot
SetEnvIfNoCase User-Agent strawberryj bad_bot
SetEnvIfNoCase User-Agent Scooper bad_bot
SetEnvIfNoCase User-Agent Ahrefs bad_bot
SetEnvIfNoCase User-Agent Spider bad_bot
SetEnvIfNoCase User-Agent None bad_bot
SetEnvIfNoCase User-Agent EventMachine bad_bot
SetEnvIfNoCase User-Agent aiHitBot bad_bot
SetEnvIfNoCase User-Agent SolomonoBot bad_bot
SetEnvIfNoCase User-Agent SearchBot bad_bot
SetEnvIfNoCase User-Agent Wget bad_bot
SetEnvIfNoCase User-Agent Crawler bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot

Точно таким же образом в этот перечень запретных ботов можно прописать и имя другого достающего Вас бота. Думаю, разберетесь.