robot.txt چیست و چه کاربردی دارد

نویسنده: آبتین حیدرآبادیان| دسته بندی: آموزش سئو و بهینه سازی | نظرات: 1 نفر
900
15 بهمن 1397
آبتین حیدرآبادیان نویسنده

در این بخش از سری مقالات آموزش سئو به یکی از مهمترین و البته ساده‌ترین مواردی که در سئو هر سایتی می‌تواند بسیار حیاتی و مهم باشد خواهیم پرداخت تا تمامی وب مستر ها با واژه robot.txt چیست و چه کاربردی دارد بیشتر آشنا شده و بتوانند از آن به طور مناسب استفاده نمایند.

robot.txt چیست و چه کاربردی دارد ؟

فایل Robots.txt فایلی برای گزارش ساختار صفحات وب سایت به ربات‌های کراولر (crawler) موتورهای جستجو است تا بتوانند متوجه شوند که کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند. این فایل کاملا فایل دسترسی است و می‌توانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما می‌توانند آن را به سادگی ببینند.

فایل Robots.txt در واقع به ربات‌ها اطلاع می‌دهد که کجا می‌توانند فایل‌های نقشه XML سایت را پیدا کنند و در این میان کدام صفحات نباید کراول شوند. قبل از اینکه ربات‌های موتورهای جستجو نظیر بینگ و یا گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی کرده  و اگر این فایل وجود داشته باشد مطابق با اطلاعات نوشته شده در آن اقدام به ایندکس کردن صفحات می‌کنند.

Robots.txt در حقیقت جزو مهارت‌های اولیه به حساب می‌آید که متخصصین سئو آن را یاد می‌گیرند و یکی از صدها بخش سئو سایت می‌باشد. اما متاسفانه با استفاده نادرست از این فایل در بسیاری از موارد نتایجی که از آن گرفته می‌شود یا منفی و مخرب است و یا عملا هیچ تاثیری در سئو ندارد.

به همین دلیل در ادامه به چندین نکته مهم در هنگام ساخت این فایل خواهیم پرداخت تا شما بتوانید با در نظر گرفتن این موارد از نتایج مخرب این فایل بر روی هاست خود جلوگیری نمایید.

  •  ریسک امنیتی فایل Robot.txt

فایل Robots.txt یک ضرورت نیست ولی یک ابزار جالب توجه است و ربات‌های موتورهای جستجو خیلی وابسته به آن هستند. اما گاهی می‌تواند به ضرر سایت‌ها تمام شود.

به طور مثال ؛ اگر یک نفر در نظر داشته باشد به صفحاتی از وبسایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کرده‌اید یقیناً برای شناسایی این صفحات می‌تواند به راحتی از این فایل استفاده کند. خیلی‌ها فکر می‌کنند که از طریق فایل‌های ربات ، می توانند از اطلاعات محرمانه‌ خود مراقبت می‌کنند در حالی که کاملا برعکس است و برخی ربات‌ها می‌توانند از این اطلاعات شما سوءاستفاده کنند.

کیس‌های مختلف دیگری هم وجود دارند که  در آن‌ها به دلیل عدم امنیت فایل‌های Robot.txt اگر به دست رقبای شما بیفتد می‌تواند به ضرر شما تمام شود. برای کاهش این خطرات چه باید کرد؟

فایل Robots.txt به شما کمک نمی‌کند تا یک URL را از ایندکس موتورهای جستجو حذف کنید و همچنین از موتورهای جستجو در برابر اضافه کردن یک URL جلوگیری نمی‌کند. پس فایل ربات صرفاً برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول می‌کنند اما با فایل ربات به آن‌ها اطلاع می‌دهید که این صفحات را در نتایج جستجو نمایش ندهد.

  •  در استفاده از Nofollow‌ و Disallow به طور همزمان خیلی مراقب باشید.

در چند مورد نادر که در یک صفحه همزمان از تگ‌های نوفالو و ربات دیس‌آلو استفاده می‌شود ممکن است مشکلاتی به وجود بیاید. به طوری که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش می‌دهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر می‌گذارد. باید دقت داشته باشید که صفحات شما همزمان از این دو تگ و ربات استفاده نکنند تا صفحات به درستی به موتورهای جستجو معرفی شوند.

  •  برای صفحات محرمانه اما قابل دسترسی از Noindex استفاده کنید.

اگر از تگ Noindex استفاده کنید مستقیما به ربات‌های کراولر اعلام می‌کنید که این صفحه نباید در نتایج جستجو نمایش داده شود. یعنی کراولر صفحه‌ شما را کراول و شناسایی می‌کند اما حق ندارد محتوای شما را در نتایج نشان دهد. این مورد برای صفحات محرمانه‌ با دسترسی عمومی بسیار مناسب است. برای صفحاتی محرمانه‌ای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد می‌شود. از Disallow برای مسیرها استفاده کنید نه صفحات خاص

با لیست کردن برخی صفحات خاص و استفاده از Disallow‌ در حقیقت شما به ربات‌های مخرب و هکرها می‌گویید که این صفحات سایت مهم هستند و نباید به آن‌ها دسترسی پیدا کنید و آن‌ها به راحتی این صفحات را پیدا می‌کنند. اما اگر مسیرها و دایرکتوری‌ها را Disallow کنید این ربات‌ها صرفاً می‌توانند صفحه دایرکتوری را ببینند و امکان دیدن سایر صفحات وجود ندارد. توجه داشته باشید که حتما از یک صفحه‌ 404 یا صفحات مشابه برای دایرکتوری‌هایی که قرار نیست ایندکس شوند اما وجود دارند ، استفاده نمایید.

جمع بندی

فایل Robots.txt‌ یک ابزار بسیار حیاتی و مهم برای سئو سایت می‌باشد و اگر نتوانید به درستی آن را تهیه و استفاده کنید ممکن است در امنیت سایت شما تاثیر منفی داشته باشد. اما اگر اصول و قواعد و تکنیک‌های آن را یاد بگیرید می‌توانید به راحتی از آن برای بهبود کارایی وبسایت خود استفاده کنید.

امیدواریم در پایان از مطلب robot.txt چیست و چه کاربردی دارد استفاده لازم را برده باشید.

کاربر گرامی شما می‌توانید سؤالات مربوط به این آموزش را در بخش کامنت‌ها عنوان کرده و در همین قسمت پاسخ خود را دریافت کنید و یا برای رفع مشکلات دیگر در زمینه آموزش‌های آذرآنلاین به بخش Community مراجعه کرده و مشکل خود را در آن مطرح نمایید تا در اسرع وقت کاربران دیگر و کارشناسان به سؤالات شما پاسخ دهند.