آموزشی دیگر از سایت ببینم تقدیم شما : ربات ها در وب بسیار رایج هستند. در واقع، از سال 2012، ترافیک ربات ها از ترافیک انسانی در وب بیشتر بود. درست است؛ بیش از 50 درصد از بازدیدهای وب سایت شما به طور متوسط از ربات ها به جای انسان ها است.
ربات ها اهداف گسترده ای دارند و همه آنها بد نیستند. برخی از رباتها، مانند رباتهای Google و Bing، صفحات شما را میخزند و ایندکس میکنند. اگر بخواهید Googlebot را مسدود کنید، سایت شما در نهایت از فهرست آنها حذف خواهد شد. آنها دیگر نمی توانند به آن دسترسی داشته باشند، بنابراین محتوای شما نمایش داده نمی شود.
سایر ربات ها کاربردهای ویژه بیشتری دارند. رباتهایی وجود دارند که صرفاً برای خزیدن در وبسایتهای تجارت الکترونیک، به دنبال معاملات هستند. آنها هر فروشگاه الکترونیکی را که می توانند با یک محصول خاص پیدا کنند، ارجاع متقابل می کنند، بنابراین سایت خانه می تواند قیمت محصول را در طیف گسترده ای از مغازه ها نشان دهد. برخی از سایتها از این موارد استفاده میکنند تا مطمئن شوند که در بالای لیست قرار دارند، به همین دلیل است که بسیاری از فهرستهای آمازون به تدریج هر روز چند سنت کاهش مییابند. فروشندگان رقیب با کاهش قیمت ها در هر بار یک یا دو پنی، یکدیگر را از فهرست خارج می کنند.
سایر ربات ها کمتر خوش خیم هستند. رباتهای هرزنامه وبلاگهایی را جستجو میکنند که به دنبال سیستمهای نظرات مختلفی هستند که میدانند چگونه از آنها سوء استفاده کنند. نظرات بدون احراز هویت یا کپچا را میتوان توسط رباتها پر کرد، و نظرات هرزنامه را میتوان برای ایجاد پیوند به سایتهای هرزنامه، جذب کلیکهای کاربران وب نادان، یا حتی بمباران یک سایت بدخیم با سئوی منفی رها کرد.
ربات های هکر برای خزیدن در وب با نگاه کردن به زیرساخت های سایت وجود دارند. آنها دامنه ها را برای URL های معمولی /admin.htm آزمایش می کنند و به دنبال وب سایت هایی می گردند که از CMS پیش فرض استفاده می کنند و چیزهایی مانند نام کاربری یا رمز عبور را تغییر نداده اند. آنها به دنبال سایتهای آسیبپذیر، میوههای آویزان کم، میگردند که میتوانند به آنها دسترسی داشته باشند و از آنها بهرهبرداری کنند. آنها ممکن است اطلاعات مدیر یا کاربر را جمع آوری کنند یا فقط URL ها را به صاحب ربات هکر گزارش دهند. آنها ممکن است طوری برنامه ریزی شوند که به سادگی یک سایت را حذف کنند و آن را با محتوای خود جایگزین کنند.
ربات های مخرب از ویروس های کامپیوتری سرچشمه می گیرند. آنها رایانه کاربر را در اختیار می گیرند و آشکارا یا در پس زمینه از قابلیت دسترسی به اینترنت آن رایانه برای انجام هر کاری که صاحب ویروس می خواهد انجام دهند استفاده می کنند. اغلب این به سادگی برای چکش کردن یک URL داده شده در یک حمله DDoS، با هدف از بین بردن سایت، یا فشار دادن به سرور به اندازه کافی برای ورود یک هکر از طریق یک اشکال در کد استفاده می شود. درباره بهترین آنتی ویروس بین AVG و Avast بیشتر بدانید.
ربات های Scraper نیز مخرب هستند. آنها مانند ربات های موتور جستجو عمل می کنند و محتوا را می خراشند. با این حال، به جای اضافه کردن آن به فهرست جستجو، آنها به سادگی محتوا را به صورت عمده کپی می کنند. محتوا، اسکریپت ها، رسانه ها؛ همه آنها دانلود شده و روی سرور هرزنامهنویس قرار میگیرند، بنابراین آنها میتوانند از آن برای چرخش در محتوای سایتهای هرزنامهشان – یا فقط جایگذاری عمده- استفاده کنند. همه اینها برای آنها یکبار مصرف است، فقط منبعی است که آنها برداشت می کنند و زمانی که دیگر مفید نیست، رها می کنند.
بدیهی است که این ربات ها اشکالات زیادی دارند. با این حال، علاوه بر اهداف آنها، آنها یک اثر جانبی دیگر نیز دارند. فشار سرور ربات ها ممکن است بتوانند به صورت ساده و سبک به سایت شما دسترسی داشته باشند – ربات های موتور جستجو اغلب این کار را می کنند – اما حتی اگر این کار را انجام دهند، همچنان به سایت شما دسترسی دارند. آنها همچنان محتوا را دانلود می کنند، از سرور شما درخواست می کنند و به طور کلی از منابع استفاده می کنند.
در بسیاری از موارد، این حتی می تواند یک سایت را از بین ببرد. من گزارشهایی از سایتهایی دیدهام که فقط توسط گوگل چکش کرده و از بین رفتهاند، اگرچه گوگل اغلب آنقدر هوشمند است که از انجام این کار اجتناب کند. با این حال، با فشار شدید ترافیک ربات در وب، چیزهای زیادی برای مبارزه وجود دارد.
همه اینها بدون اشاره به مسائل مربوط به تجزیه و تحلیل داده ها است که بعداً مطرح می شود. حذف ترافیک ربات از Google Analytics یک مشکل بزرگ است، بنابراین اطلاعاتی که می توانید تجزیه و تحلیل کنید در واقع منعکس کننده استفاده انسان است، نه استفاده از نرم افزار.
مسدود کردن ربات ها
دو راه برای مسدود کردن ربات هایی که سعی در دسترسی به سایت شما دارند وجود دارد. یکی از طریق فایل robots.txt و دیگری از طریق فایل htaccess.
همانطور که ممکن است از عنوان این پست حدس بزنید، من بر روی مورد دوم تمرکز خواهم کرد. اما ابتدا اجازه دهید در مورد robots.txt صحبت کنیم.
فایل robots.txt چیست؟
فایل robots.txt یک فایل متنی است که شما در root Director سرور خود قرار می دهید. هدف آن ارائه دستورالعمل هایی به ربات هایی است که می خواهند به سایت شما دسترسی پیدا کنند. میتوانید از آن برای مسدود کردن دسترسی رباتها، چه به رباتهای خاص یا به همه رباتها، استفاده کنید.
مشکل robots.txt این است که به ربات ها راهنمایی می کند. اگر رباتها تصمیم بگیرند که به آن احترام نگذارند – منظور من، اگر سازنده ربات آن را طوری برنامهریزی کند که robots.txt را نادیده بگیرد – نمیتوانید کاری انجام دهید. مانند این است که درب ورودی خود را باز کنید، اما با تابلویی که روی آن نوشته شده است «دزدها دوری کنید». اگر سارق تصمیم بگیرد که تابلو را نادیده بگیرد، هیچ چیز مانع از عبور آنها از دروازه نمی شود.
فایل .htaccess یک فایل پیکربندی است که توسط نرم افزار وب سرور آپاچی استفاده می شود. این بسیار بیشتر شبیه یک نگهبان امنیتی در جلوی دروازه است که فعالانه دزدان احتمالی را متوقف می کند. به جز در این مورد، نگهبان این توانایی را دارد که ببیند آیا فردی که قصد ورود به داخل را دارد از RobberHome آمده است یا نه، پیراهنی به تن دارد که روی آن نوشته شده است “من یک دزد هستم” یا در غیر این صورت خود را معرفی می کند.
این بدان معناست که فایل htaccess می تواند به طور فعال اکثر ربات ها را مسدود کند، اما نه همه ربات ها. به طور خاص، رباتهای باتنت – رایانههای برده شده از کاربران عادی – معمولاً به طور پیشفرض مسدود نمیشوند. این به این دلیل است که آن ها کامپیوترهای کاربر معمولی هستند که از نرم افزار کاربر معمولی استفاده می کنند. اگر آنها را مسدود کنید، انسان ها را مسدود می کنید. با این حال، برای اکثر ربات های دیگر، فایل htaccess. ایده آل است.
توجه داشته باشید که استفاده از فایل htaccess تنها در صورتی امکان پذیر است که وب سرور شما دارای آپاچی باشد. اگر از Nginx، Lighttpd یا یکی از معماری های سرور طاقچه دیگر استفاده می کنید، باید راه آن نرم افزار را برای مسدود کردن ربات ها پیدا کنید.
شناسایی ربات ها برای مسدود کردن
اول از همه یک هشدار. هنگامی که ربات ها را از طریق فایل htaccess مسدود می کنید بسیار مراقب باشید. یک اشتباه تایپی و می توانید کل اینترنت را مسدود کنید. واضح است که شما آن را نمی خواهید.
اولین کاری که می خواهید انجام دهید این است که از فایل htaccess فعلی خود نسخه پشتیبان تهیه کنید. در صورت بروز خطایی که ترافیکی را که نمیخواهید مسدود شود مسدود میکند، میتوانید فایل قدیمی را برای بازگرداندن تغییرات بازیابی کنید تا زمانی که متوجه شوید چه مشکلی رخ داده است.
دومین کاری که می خواهید انجام دهید این است که بفهمید چگونه گزارش های دسترسی خود را پیدا کنید. با آپاچی، برای دسترسی به فایل لاگ باید از دستور لینوکس/یونیکس استفاده کنید.
با استفاده از آن راهنما، یک فایل گزارش ایجاد می کنید که دسترسی به سرور را با جزئیات بسیار کمی نشان می دهد. آدرس IP مورد استفاده برای دسترسی به سرور، هویت دستگاه مشتری در صورت موجود بودن، شناسه کاربری دستگاه در صورت استفاده از احراز هویت، زمان درخواست، دسترسی به آن توسط HTTP، کد وضعیت سرور برگردانده شد و اندازه شی درخواست شد. این احتمالاً یک فایل بزرگ خواهد بود.
فایل log دادههای مربوط به همه کاربران معمولی شما و تمام دسترسیهای ربات شما را خواهد داشت. برخی از رباتها، مانند رباتهای Google، خود را از طریق اطلاعات عامل کاربر خود شناسایی میکنند. رباتهای بد گاهی اوقات خود را شناسایی میکنند، اما اغلب فقط ویژگیهای خاصی دارند که آنها را غیرانسانی میداند. آنها ممکن است از نسخه قدیمی مرورگری استفاده کنند که معمولاً مورد سوء استفاده قرار می گیرد. آنها ممکن است از آدرس ها یا دامنه های هرزنامه شناخته شده باشند.
این راهنما به شما کمک میکند تشخیص دهید کدام ورودیهای لاگ رباتهای بد هستند و کدام رباتهای خوب یا کاربران خوب هستند.
به طور کلی، اگر یک ربات فقط یک بار در ماه به سایت شما دسترسی دارد، لزوماً لازم نیست نگران آن باشید. در صورت تمایل میتوانید آن را مسدود کنید، اما لزوماً باعث صرفهجویی در وقت یا تلاش شما نمیشود. هدف اصلی شما باید مسدود کردن ربات هایی باشد که دائماً بازدید می کنند و تأثیر منفی بر عملکرد سرور شما دارند.
هنگام مسدود کردن توسط آدرس IP یا محدوده IP بسیار مراقب باشید. دیدن تعداد زیادی ربات از چیزی شبیه به 168.*.*.*، با اعداد مختلف در ستاره ها آسان است و فکر کنید «من فقط می توانم همه آنها را مسدود کنم! کل محدوده /8 را مسدود کنید! مشکل این است که محدوده 8/ در IPv4 16777216 آدرس IP مختلف است که بسیاری از آنها ممکن است توسط کاربران قانونی استفاده شوند. شما می توانید با یک قانون بیش از حد گسترده، حجم عظیمی از ترافیک قانونی را مسدود کنید.
اکثر ورودیهای یک فایل htaccess. از طریق آدرس IP مسدود نمیشوند، فقط به این دلیل که تغییر آدرس IP از طریق پراکسیها بسیار آسان است. اکثر آنها از نامهای عامل کاربر، آدرسهای IP تکرارشونده خاص از رباتهایی که اهمیتی برای تغییر ندارند، یا دامنههایی که عموماً برای میزبانی رباتهای هرزنامه یا ابزارهای هکر استفاده میشوند، استفاده میکنند.
با استفاده از فایل htaccess
سه راه برای مسدود کردن ربات ها از طریق فایل htaccess وجود دارد. اولین مورد رایج ترین است که از عامل کاربر ربات برای مسدود کردن آن استفاده می کند. این به طور کلی قابل اعتماد است، زیرا کاربران عادی به طور تصادفی یک عامل کاربر ربات ندارند.
در فایل htaccess خود، ابتدا خطی را می خواهید که «RewriteEngine on» را نشان دهد. این خط اطمینان می دهد که هر خط بازنویسی زیر به جای اینکه به عنوان نظر تجزیه شود، کار خواهد کرد.
در مرحله بعد، میتوانید «RewriteCond %{HTTP_USER_AGENT} \» را به عنوان خط خودش اضافه کنید. این یک شرط بازنویسی را بر اساس user-agent فعال می کند. شما در اینجا دو گزینه دارید؛ می توانید بعد از این یک خط تعداد زیادی عامل کاربری مختلف اضافه کنید، یا می توانید یک عامل کاربر اضافه کنید و سپس خط را دوباره اضافه کنید. مثلا:
RewriteCond %{HTTP_USER_AGENT} \ 12soso|\ 192\.comagent|\ 1noonbot|\ 1on1searchbot|\ 3de\_search2|\ [NC,OR] Or: RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^$ [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^Acunetix [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^binlar [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [NC,OR]
هر دو خوب کار می کنند با مثال اول، باید یک خط RewriteCond اضافی در هر 500 یا بیشتر ورودی اضافه کنید. این به این دلیل است که هر چه خط با یک فرمان طولانی تر باشد، تجزیه و تحلیل برای آپاچی سخت تر می شود. تقسیم کردن آن به ورودی های فردی باعث می شود که آن را درهم و برهم تر کند اما شاید خواندن آن را آسان تر کند. صرف نظر از این، شما می توانید از هر دو روش استفاده کنید.
بیت های NC و OR در انتها پرچم های بازنویسی هستند. NC به معنای “nocase” است، به این معنی که ورودی به حروف بزرگ و کوچک حساس نیست. این به این معنی است که “12soso” و “12Soso” به همین ترتیب رفتار می شوند. OR به معنای “این یا آن” است، همانطور که در، ربات تا زمانی که با یکی از ورودی های لیست مطابقت داشته باشد، مسدود می شود، در مقابل “AND” که همه آنها هستند.
پس از لیست ربات های خود در اینجا، باید قانون بازنویسی را مشخص کنید. همه اینها فقط قسمت اول یک بند دو قسمتی است: اگر URL با این مطابقت داشته باشد، … قسمت دوم اتفاقی است که می افتد. “RewriteRule .* – [F,L]” را در خط خودش اضافه کنید.
کاری که این کار انجام می دهد این است که هر ترافیک ورودی را از عامل کاربر ربات به یک صفحه مسدود شده هدایت می کند. به طور خاص، کد 403 Forbidden را ارسال می کند. [F] ممنوع است و [L] کدی است که نشان می دهد قانون بازنویسی باید بلافاصله اعمال شود نه پس از تجزیه بقیه فایل htaccess.
دو روش دیگر مسدود کردن بر اساس ارجاع دهنده HTTP و مسدود کردن بر اساس آدرس IP هستند.
برای مسدود کردن توسط ارجاع دهنده HTTP، از “RewriteCond %{HTTP_REFERRER}” به عنوان خط شروع استفاده کنید، از دامنه ارجاع دهنده بهره برداری مانند www1.free-social-buttons\.com استفاده کنید و از بلوک [NC,OR] استفاده کنید. سپس همان خط RewriteRule را اضافه کنید. در نهایت به چیزی شبیه به این خواهید رسید:
RewriteCond %{HTTP_REFERER} www4.free-social-buttons\.com RewriteRule ^.* - [F,L]
در نهایت، شما به سادگی می توانید بر اساس آدرس IP مسدود کنید. اگر متوجه شدید که یک آدرس IP خاص به خصوص مضر است، هر ساعت صد بار به سایت شما اسپم میکند یا هر چیز دیگری، میتوانید آن را مسدود کنید. فقط “*.*.*.*” را بنویسید، جایی که ستاره ها آدرس IP هستند. به نظر می رسد ” 173.192.34.95″ است.
مسدود سازی ربات های مخرب در وردپرس
کافیست کد زیر را در فایل htaccess خود قرار دهید.
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^Zeus RewriteRule ^.* - [F,L]
11 پاسخ
GuYlUReE
JmrluvpxnsWOFi
YMaPrfGAEwoCiTxn
hgQAVFqsmEG
Very interesting topic, appreciate it for putting up.Raise your business
UQhTsFkmMXlcaPN
ASMFEaIxzOKh
pHDToxnKQlM
lYipgRoJKNjfGat
pzqOFRLr
mYiOWXQcop