بازدید کننده 3014 چهار شنبه 21 دی 1401 گروه: عمومی چاپ

به چه دلیل از فایل robots.txt استفاده می شود؟

فایل robots.txt وجود دارد تا به خزنده‌ها و روبات‌ها بگوید که کدام URL را نباید در وب‌سایت شما بازدید کنند. فایل متنی robots.txt کمک می کند از جستجوی صفحات بی کیفیت یا گیر افتادن در تله های جستجو که در آن تعداد بی نهایت URL می تواند ایجاد شود جلوگیری شود.

همانطور که گوگل در راهنمای مشخصات robots.txt خود توضیح می دهد ، فرمت فایل باید به صورت متنی ساده و با کد UTF-8 باشد. رکوردهای فایل (یا خطوط) باید با CR ، CR/LF یا LF از هم جدا شوند.

شما باید به اندازه فایل robots.txt توجه کنید، زیرا موتورهای جستجو برای حجم این نوع فایل ها محدودیت های خود را دارند. حداکثر اندازه فایل robots.txt برای گوگل 500 کیلوبایت می باشد.

کجا باید از فایل robots.txt استفاده شود؟

فایلrobots.txt همیشه باید در ریشه دامنه وب سایت وجود داشته باشد، به عنوان مثال:

این فایل مختص پروتکل و دامنه اصلی است، بنابراین robots.txt برای دامنه https://www.example.com کاربرد دارد و در زیر دامنه یا https://subdomain.example.com تاثیری ندارد، به عبارت دیگر هر زیر دامنه یا subdomain باید فایل‌های robots.txt خود را داشته باشند.

چه زمانی باید از قوانین robots.txt استفاده کرد؟

به طور کلی، وب سایت ها باید سعی کنند تا حد امکان کمتر از robots.txt برای کنترل خزیدن یا جستجو استفاده کنند. بهتر است معماری وب سایت خود را بهبود بخشید تا خزنده راحت تر وظایف خود را انجام دهند . با این حال، استفاده از robots.txt در صورت لزوم برای جلوگیری از دسترسی خزنده‌ها به بخش‌های بی کیفیت وب سایت توصیه می‌شود البته در صورتی که این مشکلات در کوتاه‌مدت برطرف نشدند.

Google استفاده از robots.txt را فقط در زمانی که مشکلات سرور ایجاد می‌شود و یا برای حل مشکلات مربوط به کارآیی جستجو در بخش غیرقابل فهرست سازی یک وب سایت ، مانند Googlebot توصیه می‌کند.

چند نمونه از صفحاتی که ممکن است نخواهید جستجو شوند عبارتند از:

  • صفحات دسته‌بندی با مرتب‌سازی غیر استاندارد، زیرا این کار معمولاً صفحه دسته‌بندی تکراری ایجاد می‌کند
  • محتوای تولید شده توسط کاربر که قابل تعدیل نیست
  • صفحات دارای اطلاعات حساس
  • صفحات جستجوی داخلی می تواند تعداد بی نهایتی از این صفحات وجود داشته باشد که تجربه کاربری ضعیفی را ارائه می دهد و بودجه جستجو را هدر می دهد.

از robots.txt چه زمانی نباید استفاده کرد؟

فایل robots.txt هنگامی که به درستی استفاده شود ابزار بسیار مفیدی است، با این حال، مواردی وجود دارد که بهترین راه حل نیست. در اینجا چند نمونه از زمان هایی که نباید از robots.txt برای کنترل جستجو استفاده شود ذکر گردیده است:

1. مسدود کردن جاوا اسکریپت وCSS

موتورهای جستجو باید بتوانند به تمام منابع موجود در سایت شما دسترسی داشته باشند تا صفحات را به درستی رندر کنند، که بخشی ضروری برای حفظ رتبه بندی وب سایت می باشد. فایل‌های جاوا اسکریپتی که ذهنیت کاربر و یا بازدید کننده را به طرز چشمگیری تغییر می‌دهند، اما خزیدن آنها توسط موتورهای جستجو ممنوع است، ممکن است منجر به جریمه‌های دستی یا الگوریتمی شوند.

به عنوان مثال، اگر به یک تبلیغ ارائه می دهید یا کاربران را با جاوا اسکریپت هدایت می کنید که موتور جستجو نمی تواند به آن دسترسی داشته باشد، ممکن است به عنوان پنهان کاری دیده شود و رتبه بندی محتوای شما بر این اساس تنظیم شود.

2. مسدود کردن پارامترهای URL

می توانید از robots.txt برای مسدود کردن URL های حاوی پارامترهای خاص استفاده کنید، اما این همیشه بهترین روش نیست. بهتر است این موارد را در کنسول جستجوی Google مدیریت کنید زیرا گزینه‌های خاص و پارامتر های بیشتری برای ارتباط با روش‌های جستجو در Google وجود دارد.

همچنین می توانید اطلاعات را در یک قطعه URL ( /page#sort=price ) قرار دهید، زیرا موتورهای جستجو این را جستجو نمی کنند. علاوه بر این، اگر باید از یک پارامتر URL استفاده شود، لینک های مربوط به آن می‌تواند حاوی ویژگی rel=nofollow باشد تا از تلاش خزنده‌ها برای دسترسی به آن جلوگیری کند.

3. مسدود کردن URL ها با بک لینک

غیرمجاز کردن آدرس‌های اینترنتی در robots.txt لینک وب سایت را بی اعتبار می کند. این بدان معناست که اگر موتورهای جستجو نتوانند لینک‌های سایر وب‌سایت‌ها را دنبال کنند ، وب‌سایت شما اعتباری را که آن لینک ها به دست نمی‌آورد و در نتیجه، ممکن است در کل رتبه‌بندی خوبی نداشته باشید.

4. گرفتن صفحات نمایه شده از فهرست خارج می شود

استفاده از Disallow صفحات را از فهرست گوگل خارج نمی کند، حتی اگر URL مسدود شده باشد و موتورهای جستجو هرگز صفحه را جستجو نکرده باشند، صفحات غیرمجاز ممکن است همچنان ایندکس شوند. این به این دلیل است که فرآیندهای جستجو و نمایه سازی تا حد زیادی از هم جدا هستند.

5. تنظیم قوانینی که خزنده های شبکه های اجتماعی را نادیده می گیرند

حتی اگر نمی‌خواهید موتورهای جستجو صفحات را جستجو کنند و فهرست‌بندی کنند، ممکن است بخواهید شبکه‌های اجتماعی بتوانند به آن لینک دسترسی داشته باشند تا یک قطعه صفحه ساخته شود. به عنوان مثال، فیس بوک سعی می کند از هر صفحه ای که در شبکه پست می شود بازدید کند تا بتواند یک قطعه مرتبط را ارائه دهد. این مورد باید را هنگام تنظیم قوانین robots.txt در نظر گرفته شود.

6. مسدود کردن دسترسی از سایت های توسعه دهنده

استفاده از robots.txt برای مسدود کردن کل یک سایت بهترین روش نیست. گوگل توصیه می‌کند که صفحات را فهرست نکنید، ولی اجازه جستجو به آن‌ها داده شود، اما به طور کلی، بهتر است که سایت را از دنیای خارج غیرقابل دسترس کنید.

7. وقتی چیزی برای مسدود کردن ندارید

وب سایت ها یی که معماری مناسبی دارند نیازی به مسدود کردن جستجوگر ها از هیچ صفحه ای ندارند. در این شرایط، نداشتن فایل robots.txt و استفاده از صفحه 404 مناسب می باشد

نحوه و قالب بندی Robots.txt

حالا که متوجه شدیم robots.txt چیست و چه زمانی باید استفاده شود و چه زمانی نباید استفاده شود، بیایید نگاهی به نحو استاندارد و قوانین قالب بندی که باید هنگام نوشتن یک فایل robots.txt رعایت شوند، بیاندازیم.

نحوه و قالب بندی Robots.txt

نظرات

نظرات خطوطی هستند که به طور کامل توسط موتورهای جستجو نادیده گرفته می شوند و با یک # شروع می شوند . آنها وجود دارند تا به شما این امکان را بدهند که در مورد کارهایی که هر خط از robots.txt شما انجام می دهد، چرایی وجود و زمان اضافه شدن آن یادداشت بنویسید. به طور کلی، توصیه می‌شود که هدف هر خط از فایل robots.txt خود را مستند کنید، تا زمانی که دیگر ضروری نیست و در زمانی که هنوز ضروری است، حذف شود.

تعیین عامل کاربر

یک بلوک از قوانین را می توان با استفاده از دستورالعمل " کارگزار-عامل " برای عوامل کاربر خاص اعمال کرد. به عنوان مثال، اگر می‌خواهید قوانین خاصی برای Google، Bing و Yandex اعمال شود. اما نه فیس بوک و شبکه های تبلیغاتی، این را می توان با تعیین یک توکن عامل کاربر که مجموعه ای از قوانین برای آن اعمال می شود، به دست آورد.

هر جستجوگر توکن عامل کاربر خود را دارد که برای انتخاب بلوک های منطبق استفاده می شود.

جستجوگرها از خاص‌ترین قوانین عامل کاربر که با خط تیره برای آنها تنظیم شده است، پیروی می‌کنند و اگر مطابقت دقیقی پیدا نشد، دوباره به قوانین عمومی‌تر بازمی‌گردند. برای مثال، Googlebot News به دنبال تطبیق « googlebot-news »، سپس « googlebot » و سپس « * » خواهد بود.

در اینجا برخی از رایج‌ترین توکن‌های عامل کاربر که با آن‌ها مواجه می‌شوید آورده شده است:

  • * - قوانین برای هر ربات اعمال می شود، مگر اینکه مجموعه قوانین خاصی وجود داشته باشد
  • Googlebot – همه خزنده های گوگل
  • Googlebot-News – خزنده برای Google News
  • Googlebot-Image – خزنده برای تصاویر گوگل
  • Mediapartners-Google – خزنده Google Adsense
  • Bingbot – خزنده بینگ
  • Yandex - خزنده Yandex
  • Baiduspider – خزنده بایدو
  • Facebot - خزنده فیس بوک
  • Twitterbot – خزنده توییتر

این فهرست از نشانه‌های عامل کاربر به هیچ وجه کامل نیست، بنابراین برای کسب اطلاعات بیشتر در مورد برخی از خزنده‌های موجود، به اسناد منتشر شده توسط Google ، Bing ، Yandex ، Baidu ، Facebook و Twitter مراجعه نمایید.

تطبیق توکن عامل کاربر با بلوک robots.txt به حروف بزرگ و کوچک حساس نیست. به عنوان مثال «googlebot» با توکن نماینده کاربر Google «Googlebot» مطابقت دارد.

نشانی‌های اینترنتی مطابق الگو

ممکن است URL خاصی داشته باشید که بخواهید از جستجوی آن جلوگیری کنید، زیرا این کار بسیار کارآمدتر از گنجاندن لیست کامل URL های کاملی است که باید در فایل robots.txt شما حذف شوند.

برای کمک به اصلاح مسیرهای URL خود، می توانید از نمادهای * و $ استفاده کنید. در اینجا نحوه کار آنها آمده است:

  • * - این یک علامت عام است و هر مقدار از هر شخصیت را نشان می دهد. می تواند در ابتدا یا وسط یک مسیر URL باشد، اما در پایان لازم نیست. شما می توانید از چند علامت عام در یک رشته URL استفاده کنید، به عنوان مثال، " عدم اجازه: */products؟*sort= ". قوانین با مسیرهای کامل نباید با علامت عام شروع شوند.
  • $ – این کاراکتر نشان‌دهنده پایان یک رشته URL است، بنابراین «عدم اجازه : */dress$ » فقط با URLهایی که به « /dress » ختم می‌شوند و نه « /dress?parameter » مطابقت دارد.

لازم به ذکر است که قوانین robots.txt به حروف بزرگ و کوچک حساس هستند، به این معنی که اگر آدرس‌های اینترنتی با پارامتر « جستجو » را غیرممکن کنید (مثلاً « عدم اجازه : *?search= »)، ممکن است روبات‌ها همچنان URLهایی را با حروف بزرگ متفاوت بخزند، مانند « ?Search » =

قوانین و دستورالعمل ها فقط با مسیرهای URL مطابقت دارند و نمی توانند شامل پروتکل یا نام host باشند. یک اسلش در شروع یک دستورالعمل با شروع مسیر URL مطابقت دارد. به عنوان مثال، " Disllow: /starts " با www.example.com/starts مطابقت دارد .

مگر اینکه شروع یک تطابق دستورالعمل را با یک / یا * اضافه کنید، با چیزی مطابقت نخواهد داشت. برای کمک به تجسم نحوه عملکرد قوانین URL های مختلف، برای شما چند مثال آماده کرده ایم:

نشانی‌های اینترنتی مطابق الگو robots.txt

لینک نقشه سایت Robots.txt

دستورالعمل نقشه سایت در یک فایل robots.txt به موتورهای جستجو می گوید که نقشه سایت XML را کجا پیدا کنند، که به آنها کمک می کند تا تمام URL های وب سایت را پیدا کنند. برای کسب اطلاعات بیشتر در مورد نقشه سایت، نگاهی به راهنمای ممیزی نقشه سایت و پیکربندی پیشرفته بیندازید .

هنگام قرار دادن نقشه سایت در فایل robots.txt، باید از URL های مطلق (به عنوان مثال https://www.example.com/sitemap.xml ) به جای URL های نسبی (یعنی /sitemap.xml .) استفاده کنید. همچنین نیاز نیست حتما فایل sitemap.xml به روی ریشه  دامنه سایت بنشینید، آنها همچنین می توانند روی یک دامنه خارجی میزبانی شوند.

موتورهای جستجو نقشه‌های سایت فهرست‌شده در فایل robots.txt شما را پیدا می‌کنند و ممکن است آن‌ها را جستجو کنند، با این حال، این نقشه‌های سایت بدون ارسال دستی در کنسول جستجوی Google یا ابزار وب‌مستر بینگ ظاهر نمی‌شوند.

بلوک های Robots.txt

قانون «عدم اجازه» در فایل robots.txt می‌تواند به روش‌های مختلفی برای User agent های مختلف استفاده شود. در این بخش، برخی از روش‌های مختلف را که می‌توانید ترکیب بلوک‌ها را قالب‌بندی کنید، بیان می کنیم.

مهم است که به یاد داشته باشید که دستورالعمل های موجود در فایل robots.txt فقط دستورالعمل هستند. خزنده های مخرب فایل robots.txt شما را در نظر نمی گیرند و هر قسمت از سایت شما را که عمومی است جستجو می کنند، بنابراین Disallow نباید به جای اقدامات امنیتی قوی استفاده شود.

چندین نمونه User agent

می‌توانید با فهرست کردن آن‌ها قبل از مجموعه‌ای از قوانین، یک بلوک از قوانین را با چندین نماینده کاربر مطابقت دهید، برای مثال، قوانین غیرمجاز زیر برای Googlebot و Bing در بلوک قوانین زیر اعمال می‌شود:

  • User-agent: googlebot
  • User-agent: bing
  • Disallow: /a

فاصله بین بلوک های دستورالعمل

گوگل فاصله های بین دستورالعمل ها و بلوک ها را نادیده می گیرد. در این مثال اول، قانون دوم انتخاب می‌شود، حتی اگر فضایی وجود داشته باشد که دو بخش قانون را از هم جدا می‌کند:

[code]

User-agent: *

Disallow: /disallowed/

 

Disallow: /test1/robots_excluded_blank_line]

[/code]

در این مثال ، Googlebot-mobile همان قوانین Bingbot را به ارث می برد:

[code]

User-agent: googlebot-mobile

 

User-agent: bing

Disallow: /test1/deepcrawl_excluded

[/code]

بلوک های جداگانه ترکیب شده است

چندین بلوک با یک عامل کاربر ترکیب می شوند. بنابراین در مثال زیر، بلوک‌های بالا و پایین با هم ترکیب می‌شوند و Googlebot از خزیدن « b » و « / a» منع می‌شود .

User-agent: googlebot

Disallow: /b

User-agent: bing

Disallow: /a

User-agent: googlebot

Disallow: /a

مجوزهای Robots.txt

قانون robots.txt "اجازه دادن" به صراحت اجازه خزیدن به URL های خاص را می دهد. در حالی که این پیش‌فرض برای همه URLها است، این قانون می‌تواند برای بازنویسی یک قانون غیر مجاز استفاده شود. به عنوان مثال، اگر " /locations " غیرمجاز است، می توانید با داشتن قانون خاص " Allow: /locations/london " خزیدن " /locations/london " را مجاز کنید.

اولویت های Robots.txt

وقتی چندین قانون مجاز و غیرمجاز برای یک URL اعمال می شود، طولانی ترین قانون تطبیق همانی است که اعمال می شود. بیایید ببینیم چه اتفاقی برای URL " /home/search/shirts " با قوانین زیر می افتد:

Disallow: /home

Allow: *search/*

Disallow: *shirts

در این مورد، URL مجاز به جستجو است زیرا قانون Allow دارای 9 کاراکتر است، در حالی که قانون Disallow فقط 7 کاراکتر دارد. اگر به یک مسیر URL خاص نیاز دارید که مجاز یا غیر مجاز باشد، می توانید از * برای طولانی تر کردن رشته استفاده کنید. مثلا:

Disallow: *******************/shirts

هنگامی که یک URL با یک قانون مجاز و یک قانون غیر مجاز مطابقت دارد، اما طول قوانین یکسان است، از عدم مجاز پیروی می شود. به عنوان مثال، URL " /search/shirts " در سناریوی زیر غیرمجاز خواهد بود:

Disallow: /search

Allow: *shirts

دستورالعمل های Robots.txt

دستورالعمل‌ها ابزارهای خوبی هستند، اما مشکل آنها این است که موتورهای جستجو قبل از خواندن این دستورالعمل‌ها باید یک صفحه را جستجو کند، که می‌تواند زمان جستجو را زیاد کند .

دستورالعمل‌های Robots.txt می‌توانند به کاهش فشار بر زمان جستجو کمک کنند، زیرا می‌توانید دستورالعمل‌ها را مستقیماً به فایل robots.txt خود اضافه کنید، نه اینکه منتظر بمانید تا موتورهای جستجو صفحات را قبل از اقدامی جستجو کنند. مدیریت این راه حل بسیار سریعتر و آسانتر است.

دستورالعمل‌های robots.txt زیر مانند دستورالعمل‌های مجاز و غیر مجاز عمل می‌کنند، به این صورت که می‌توانید حروف عام ( * ) را مشخص کنید و از نماد $ برای نشان دادن انتهای رشته URL استفاده کنید.

خاصیت noIndex در Robots.txt

Robots.txt noindex یک ابزار مفید برای مدیریت نمایه سازی موتورهای جستجو بدون استفاده از بودجه خزیدن است. غیر مجاز کردن یک صفحه در robots.txt به معنای حذف آن از فهرست نیست، بنابراین دستورالعمل noindex برای استفاده برای این منظور بسیار مؤثرتر است

گوگل به طور رسمی از robots.txt noindex پشتیبانی نمی کند و شما نباید به آن تکیه کنید زیرا اگرچه امروز کار می کند، اما ممکن است فردا این کار را انجام ندهد. اگرچه این ابزار می تواند مفید باشد و باید به عنوان یک اصلاح کوتاه مدت در ترکیب با سایر کنترل های شاخص بلندمدت استفاده شود، اما نه به عنوان یک دستورالعمل حیاتی. به آزمایش‌هایی که توسط ohgm و Stone Temple انجام می‌شود، نگاهی بیندازید که هر دو ثابت می‌کنند که این ویژگی به طور موثر کار می‌کند.

در اینجا مثالی از نحوه استفاده از robots.txt noindex آورده شده است:

[code]

User-agent: *

NoIndex: /directory

NoIndex: /*?*sort=

[/code]

علاوه بر noindex، گوگل در حال حاضر به طور غیر رسمی از چندین دستورالعمل نمایه سازی دیگر زمانی که در robots.txt قرار می گیرند، اطاعت می کند. توجه به این نکته مهم است که همه موتورهای جستجو و خزنده‌ها از این دستورالعمل‌ها پشتیبانی نمی‌کنند، و آنهایی که انجام می‌دهند ممکن است در هر زمانی از آنها پشتیبانی نکنند – شما نباید به طور مداوم به کارکرد آن‌ها تکیه کنید.

مشکلات رایج robots.txt

برخی مسائل و ملاحظات کلیدی برای فایل robots.txt و تاثیری که می تواند بر عملکرد سایت داشته باشد وجود دارد. ما برخی از نکات کلیدی را که باید در مورد robots.txt در نظر گرفته شود و همچنین برخی از رایج‌ترین مسائلی که امیدواریم می‌توانید از آنها اجتناب کنید، فهرست کرده‌ایم.

1. یک بلوک مجدد از قوانین برای همه ربات‌ها داشته باشید – استفاده از بلوک‌های قوانین برای رشته‌های عامل کاربر خاص بدون داشتن یک بلوک مجدد از قوانین برای هر ربات دیگر به این معنی است که وب سایت شما در نهایت با رباتی مواجه می‌شود که هیچ مجموعه قوانینی برای پیروی ندارد.

2. مهم است که robots.txt به روز نگه داشته شود – یک مشکل نسبتا رایج زمانی رخ می دهد که robots.txt در مرحله توسعه اولیه یک وب سایت تنظیم می شود، اما با رشد وب سایت به روز نمی شود

3. از هدایت مجدد موتورهای جستجو از طریق URL های غیر مجاز مطلع باشید - به عنوان مثال، /product > /disallowed > /category

4. حساسیت به حروف کوچک و بزرگ می‌تواند مشکلات زیادی ایجاد کند – مدیران وب‌سایت‌ها ممکن است انتظار داشته باشند بخشی از یک وب‌سایت خزیده نشود، اما آن صفحات ممکن است به دلیل حروف متناوب مانند «عدم اجازه: /admin» وجود داشته باشد، اما موتورهای جستجو « /ADMIN » را جستجو می کنند.

5. URL های بک لینک داده شده را غیرفعال نکنید – این از انتقال رتبه صفحه به سایت شما توسط سایرین که به شما لینک می دهند جلوگیری می کند.

6. تأخیر جستجو می تواند باعث مشکلات در جستجو شود – دستورالعمل « تاخیر جستجو » خزنده ها را مجبور می کند تا از وب سایت شما کندتر از آنچه می خواستند بازدید کنند، به این معنی که صفحات مهم شما ممکن است کمتر از حد مطلوب جستجو شوند. این دستورالعمل توسط گوگل پشتیبانی نمی شود، اما توسط Bing و Yandex پشتیبانی می شود.

7. مطمئن شوید که robots.txt فقط در صورتی یک کد وضعیت 5xx را برمی گرداند که کل سایت از کار افتاده باشد – بازگرداندن کد وضعیت 5xx برای /robots.txt به موتورهای جستجو نشان می دهد که وب سایت به دلیل تعمیر و نگهداری از کار افتاده است. این معمولاً به این معنی است که آنها سعی می کنند بعداً دوباره وب سایت را جستجو کنند.

8. Robots.txt غیر مجاز، ابزار حذف پارامتر را لغو می کند - توجه داشته باشید که قوانین robots.txt شما ممکن است مدیریت پارامترها و سایر نکات نمایه سازی را که ممکن است به موتورهای جستجو داده باشید لغو کند.

9. نشانه‌گذاری بخش مربوط به جستجوی پیوندهای سایت با مسدود شدن صفحات جستجوی داخلی کار می‌کند – صفحات جستجوی داخلی در یک سایت برای کارکرد نشانه‌گذاری بخش مربوط به جستجوی پیوندهای سایت، نیازی به جستجو ندارند.

10. غیر مجاز کردن یک دامنه جابجا شده بر موفقیت جابجایی تأثیر می گذارد - اگر دامنه منتقل شده را مجاز نکنید ، موتورهای جستجو نمی توانند هیچ یک از تغییر مسیرها را از سایت قدیمی به سایت جدید دنبال کنند، بنابراین انتقال موفقیت آمیز بعید است.

تست و ممیزی Robots.txt

اگر دستورالعمل های داخل به درستی مدیریت نشود فایل robots.txt می تواند مضر باشد ، چند راه مختلف وجود دارد که می توانید آن را تست کنید تا مطمئن شوید که به درستی تنظیمات انجام گردیده است. به این مثال در مورد نحوه ممیزی URL های مسدود شده توسط robots.txt و توجه کنید :

  • از Lumar استفاده کنید – گزارش‌های صفحات غیر مجاز و URLهای غیر مجاز  در Lumar می‌توانند به شما نشان دهند که کدام صفحات توسط فایل robots.txt شما از موتورهای جستجو مسدود شده‌اند.
  • از کنسول جستجوی گوگل استفاده کنید – با ابزار آزمایشگر GSC robots.txt می توانید آخرین نسخه کش شده یک صفحه را مشاهده کنید و همچنین از ابزار Fetch and Render برای مشاهده رندرهای عامل کاربر Googlebot و همچنین عامل کاربر مرورگر استفاده کنید. مواردی که باید توجه داشته باشید: GSC فقط برای نمایندگان Google User کار می کند و فقط URL های تک را می توان آزمایش کرد.
  • سعی کنید اطلاعات بینش هر دو ابزار را با بررسی نقطه‌ای نشانی‌های اینترنتی غیرمجاز که لومار در ابزار آزمایش‌کننده GSC robots.txt پرچم‌گذاری کرده است، ترکیب کنید تا قوانین خاصی را که منجر به غیرمجاز شدن می‌شوند، روشن کنید.

نظارت بر تغییرات robots.txt

وقتی افراد زیادی بر روی یک سایت کار می کنند ممکن است مشکلات زیادی ایجاد شود حتی اگر فقط یک کاراکتر در فایل robots.txt جا افتاده باشد، نظارت مداوم روی robots.txt شما بسیار مهم است. در اینجا چند راه وجود دارد که از طریق آنها می توانید مشکلات را بررسی کنید:

  • برای مشاهده robots.txt فعلی که Google از آن استفاده می کند، کنسول جستجوی Google را بررسی کنید. گاهی اوقات robots.txt می‌تواند به صورت مشروط بر اساس عوامل کاربر انجام وظیفه کند، بنابراین این تنها روشی است که می‌توانید دقیقاً آنچه را Google می‌بیند ببینید.
  • اگر متوجه تغییرات قابل توجهی در فایل robots.txt شده اید، اندازه آن را بررسی کنید تا مطمئن شوید که اندازه آن زیر 500 است.
  • به گزارش وضعیت فهرست جستجوی کنسول جستجوی Google در حالت پیشرفته بروید تا تغییرات robots.txt را با تعداد URL های مجاز و غیر مجاز در سایت خود بررسی کنید.
  • جستجوی منظم با Lumar را برنامه ریزی کنید تا تعداد صفحات غیرمجاز در سایت خود را به طور مداوم مشاهده کنید تا بتوانید تغییرات را ردیابی کنید.

دیدگاه شما کاربران گروه طراحی وب بالسا در طراحی وب سایت در شیراز در مورد robots.txt و کاربردهای آن چیست؟ نظرات خود را با ما به اشتراک بگذارید


به اشتراک بگذارید