راهکارهای بهبود Crawl Budget برای سایتهای بزرگ
7 روش بهینه سازی Crawl Budget برای سئو رادزاد
یک نمونه محتوای تکراری مربوط به محتوای کپی است که باید از آن اجتناب کنید. برای مشاهده همه محصولات ما به صفحه سرور اختصاصی مجازی مراجعه کنید، قیمتها را مقایسه کنید و سپس به سبد خرید خود اضافه کنید. روی “Why and how to fix it” یا “Learn more” کلیک کن تا اطلاعات بیشتری درباره هر مشکل بگیری و راهنماییهایی برای رفعشون ببینی. هر شاخه باید به صفحات یا پستهای جزئیتر مربوط به دستهای که توش قرار دارن، منتهی بشه. میتونی از گزارش "Best by links" در Site Explorer به عنوان نشونهای استفاده کنی که کدوم صفحاتت احتمالاً بیشتر خزش میشن.
خود گوگل هم تاکید زیادی دارد که مدیران سایتها یا سئوکارها نباید نگران بودجه خزش سایت خود باشند. بههرحال هر شخصی دوست دارد، صفحات سایتش درست همان روزی که منتشر میشوند، خزش شده و در ایندکس گوگل قرار گیرند. اما این روندی است که توسط گوگل مدیریت میشود و معمولا هم سایتهای نهچندان بزرگ مشکلی با بودجه خزش خود ندارند. به خصوص اگر سایت شما صفحاتی در حد چندهزار صفحه (زیر 10 هزار صفحه) دارد، اصلا نیازی به تمرکز روی بودجه خزش سایت ندارید. اما برای سایتهای بزرگ مواردی مثل اولویتبندی صفحاتی که میخواهید خزش شوند، اینکه هر کدام چه زمانی خزش شوند و میزان منابعی که سرور سایت شما میتواند به خزش اختصاص دهد، اهمیت زیادی پیدا میکنند.
مثلا روش اول آن است که تگ “nofollow” را به هر پیوند ناوبری اضافه کنید. روش سوم، استفاده از فایل Robots.txt است که جلوتر راجع به آن توضیح میدهیم. همانطور که گفتیم، سالم بودن پروسه کرال یک شاخص بسیار مهم برای افزایش ظرفیت این پارامتر است سایتهایی که مشکلات فنی و توان سرور ضعیف دارند، خزیده نشده یا دیرتر کرال میشوند. اگر صفحهای از سایتی را با مرورگر خود باز کنید، دهها درخواست از طرف Browser شما به سرور سایت ارسال میشوند. انجام این پروسه نیازمند صرف یک مدت زمان و دستگاه (منابعی) است تا بتواند زمینه را برای مشاهده وب سایت مقابل فراهم کند. اگر تاکنون شک داشتید که آیا مسئله Crawl Budget در وب سایت مهم است یا نه، با این توصیفات مطمئنا متوجه مثبت بودن پاسخ این سوال شده اید.
گوگل با توجه به شرایط سایتها، آنها را اولویتبندی و برای هرکدام یک بودجه خزش در نظر میگیرد. اما سایتهای بزرگ ممکن است تعداد زیادی صفحه داشته باشند که توسط گوگل هنوز ایندکس نشده باشد. اما گاهی اوقات علیرغم تلاش زیادی که سئوکارها انجام میدهند، محتواهای سایت در گوگل خزش و ایندکس نمیشود. منظور از به دست آوردن لینکهای بیشتر (بک لینک در off page) این است که دیگران بدانند شما به عنوان یک مرجع میتوانید شناخته شوید و به همین دلیل شما را باید به دیگران معرفی کرد. علاوهبر دیگر سایتها، شبکههای اجتماعی میتوانند بهترین انتخاب برای دریافت بک لینک باشند. تنها راهی که اطلاعات درستی در این مورد به شما ارائه میدهد، گزارشهای سرور سایت است.
درک درست از بودجه خزش و نحوه مدیریت آن میتواند به بهینهسازی فرایند ایندکسینگ و بهبود سئو سایت کمک کند. در این مقاله، به بررسی مفهوم بودجه خزش، نحوه مدیریت آن و بهینهسازی فرایند خزش توسط موتورهای جستجو میپردازیم و بهطورکلی به سؤال " کرال باجت چیست " پاسخ میدهیم. کرال باجت چیست؟ بودجه خزش (Crawl Budget) به تعداد درخواستهایی اطلاق میشود که یک موتور جستجو در یک دوره زمانی معین از وبسایت شما انجام میدهد. این موضوع به ویژه برای وبسایتهای بزرگ یا با تعداد زیادی صفحات اهمیت بیشتری پیدا میکند. بهینهسازی Crawl Budget یکی از مهمترین بخشهای سئو هست که میتونه به بهبود رتبه سایتت تو نتایج جستجو کمک کنه.
این بهینهسازی به بهبود تجربه کاربری و رتبهبندی صفحات سایت در نتایج جستجو کمک میکند. گاهی مواقع مدیران سایت، آگاهی کاملی بر صفحات سایت خود ندارند و ناخواسته چندین صفحه با محتوای یکسان یا مشابه در سایت خود ایجاد میکنند. این کار باعث میشود که بودجه خزشی که برای سایت شما در نظر گرفته شده است، به میزان چشمگیری هدر برود. با از بین بردن صفحات تکراری و ادغام محتوای آنها در قالب یک صفحه، میتوانید بودجه خزش سایت خود را بهینهسازی کنید. در واقع اگر رباتهای گوگل، نشانههایی مبنی بر باگ سرور سایت شما دریافت کنند، بودجه خزش را کاهش میدهند. بودجه خزش به ویژه برای وبسایتهای بزرگ با تعداد زیادی صفحه اهمیت دارد.
به عبارت سادهتر، بودجه خزش نشاندهنده تعداد صفحاتی است که یک موتور جستجو، مانند گوگل، میتواند و میخواهد در یک دوره زمانی مشخص در وبسایت شما بررسی کند. همانطور که بیان کردیم، این که با چه سرعتی و چه تعدادی از صفحات شما به وسیله ربات های موتورهای جستجو گر Crawl شوند، از اهمیت بالایی برخوردار است. گوگل هرگز به محتوای تکراری علاقهای نداشته و نمیخواهد منابع خود را با ایندکس کردن صفحاتی که محتوای باارزشی ندارند، هدر دهد. به همین دلیل سعی کنید برای هر موضوع تنها یک صفحه با محتوای یکتا و باکیفیت داشته باشید. البته این کار برای سایتهایی با بیش از 10 هزار صفحه، واقعا سخت است. رباتهای گوگل صفحاتی را که لینکهای داخلی و خارجی بیشتری دارند، در اولویت خزش قرار میدهند.
این عدد متغیر است و میتواند هر روز در مقایسه با روزهای گذشته کاملا متفاوت باشد. گوگل ممکن است روزانه 6 صفحه، 500 صفحه و یا حتی 4،000،000 صفحه از سایت شما را بخزد. Crawl Budget یا بودجه خزش، تعداد صفحاتی هست که گوگل تو یه بازه زمانی مشخص تو سایتت خزش میکنه. این مفهوم برای سئو خیلی مهمه، چون اگه صفحات سایتت مرتب خزش نشن، ممکنه تو نتایج جستجو نمایش داده نشن و ترافیک ارگانیک سایتت کم بشه. انواع وبسایتهای بزرگی که بیشتر در معرض خطر تمام شدن بودجه خزش هستند، معمولاً دههاهزار صفحه فرود دارند؛ بهویژه وبسایتهای بزرگ تجارت الکترونیک و فرشگاههای آنلاین. چند دلیل وجود دارد که چرا باید سایتهای تجارت الکترونیک و آنلاینشاپهای بزرگ توجه بیشتری به محدودیت خزش داشته باشند که در ادامه آنها را بررسی میکنیم.
به همین خاطر لازم است برای هر سایت ظرفیت محدودی درنظر گرفته شود تا روزانه مطالب جدید از سایتهای مختلف ایندکس شوند. امیدوارم با خواندن این مقاله متوجه شده باشید بودجه خزش چیست و اطلاعات لازم را درباره بهبود و افزایش بودجه خزش به دست آورده باشید. از مهمترین این راهکارها میتوان به عدم استفاده از محتوای تکراری، تولید محتوای دستهاول، بالابردن سرعت بارگذاری صفحات و لینکسازی داخلی صحیح اشاره کرد. رباتهای گوگل به صفحاتی که تعداد بسیار زیادی لینک خارجی و داخلی به آنها اشاره دارند اولویت بالایی میدهند. زمانی که بهینه سازی های مورد نظرتان را اعمال کردید، باز هم چگالی خزش سایت خود را نظارت کنید. این نظارت شما را قادر می سازد تا نتایج را بسنجید و برای واکنش نشان دادن به تغییرات احتمالی آماده باشید.
هر روز نه تنها هزاران صفحه به صفحات موجود در وب اضافه میشود بلکه هزاران سایت جدید هم متولد میشوند که هرکدام روزانه چندین صفحه به وب اضافه میکنند. بودجه خزش از آن دسته مسائل سئویی است که بعضیها در مورد آن اطلاعی ندارند یا خیلیها نمیدانند در مورد آن نگران باشند یا نباشند. درواقع از آنجا که بودجه خزش در ابتدای شروع به کار سایت چندان مهم به نظر نمیرسد، خیلیها به آن توجهی ندارند، اما رفتهرفته با بزرگ شدن سایت، توجه به آن اهمیت پیدا میکند. ازاینرو همواره سوالات زیادی درمورد اینکه چه سایتهایی باید نگران بودجه خزش باشند و اینکه راهکارهای بهبود آن چیست، مطرح میشود. در صورتی که گوگل یک صفحه از سایت شما را ایندکس نکند، آن صفحه در هیچ شرایطی در نتایج جستجو به کاربران نمایش داده نمی شود.
در حال حاضر این فقط برای چند مورد خاص مثل پستهای شغلی یا ویدیوهای زنده در دسترسه. میتونی لینکهای ریدایرکت شده (3xx) رو توی گزارش صفحات داخلی در Site Audit پیدا کنی. هر سایت یه بودجه خزش متفاوت داره که از چندین عامل مختلف تشکیل شده. اگه میخوای یه نمای کلی از فعالیت خزش گوگل و مشکلاتی که شناسایی کرده ببینی، بهترین جایی که میتونی سر بزنی گزارشهای Crawl Stats توی Google Search Console هست. اگر تمایل دارید چنین اتفاقی برای شما رخ ندهد، از هاستهای اختصاصی استفاده نمایید.
اما داشتن تعداد زیادی لینک شکسته که به صفحات غیرموجود هدایت میشن، بودجه خزش رو هدر میده. چون رباتها ممکنه همچنان سعی کنن این صفحات رو خزش کنن، حتی اگه چیزی با ارزش توشون نباشه. و این برای کاربرانی که این لینکها رو دنبال میکنن هم ناراحتکننده هست. خیلی اوقات، ممکن است در هنگام انجام فرایند Crawl کردن، مشکلاتی بر سر راه ربات های خزنده موتورهای جستجوگر به وجود آید. موتورهای جستجو با بررسی دو متغیر در هر سایت، بودجه خزیدن یا Crawl Budget آن سایت را تعیین می کنند. به همین دلیل، اگر به موضوعات مربوط به سئو سایت علاقه مندید، بهتر است با این مسئله که بودجه خزیدن یا Crawl Budget چیست و این که بهینه سازی Crawl Budget چگونه انجام می شود، آشنا شوید.
به همین دلیل ما در دیجیتال مارکیتنگ، دیجیتال برندینگ و تبلیغات آنلاین، رهبری سمفونی این موسیقی رو به عهده گرفتیم. ما برای استعدادها و تخصص منحصر به فرد هر یک از اعضای تیم ارزش قائل هستیم و ابزارها و منابع مورد نیاز برای رشد و پیدایش پتانسیل کامل اعضا را فراهم می کنیم. ما با هم، استراتژیها و راهحلهای متناسب با اهداف مشتریانمان را ایجاد خواهیم کرد و آنها را به سوی رشد سوق میدهیم. تصور کنید ربات گوگل فضول ترین شخص در دنیای وب باشد، هر جا لینک ببینید آن را پیگیری می کند. شما کاربران میتوانید با شرکت در منتورینگ سئو، به صورت عملی با روشهای تشخیص این مشکل و راهکارها یا ابزارهای رفع آن آشنا شوید. بنابراین در یک توضیح سادهتر در مورد کرال بادجت؟ باید بدانید ظرفیتی محدود و خاص هر سایت است که برای ایندکس و کراول آن استفاده میشود.
گوگل دارای منابع زیادی برای جستجو صفحات مختلف نیست و هر روز میتواند یک تعداد مشخص از صفحات سایتهای مختلف را ایندکس کند. زیرا سایتهای کوچک صفحات کمی دارند که توسط گوگل شناسایی و سریع ایندکس میشوند. تنها نمایش این دو کد است که از درست بودن وضعیت دسترسی به صفحه خبر میدهند و بقیه کدها نشاندهنده بروز یک خطا در آن است. بنابراین لازم است ابتدا وضعیت کد بازگشتی تمام صفحات را بررسی کنید و آنهایی را که خطا دارند، اصلاح کنید. ممکن است برخی خطاها را با ریدایرکت کردن بتوانید اصلاح کنید و برخی را با برطرف کردن منبع ایجاد خطا. فراموش نکنید که سرچ کنسول گوگل برای خطایابی در این قسمت هم میتواند به شما کمک زیادی کند.
چالش دیگر در تأثیرگذاری روی بودجه خزیدن این است که گوگل در هر زمان امکان دارد باجت خود را افزایش یا کاهش دهد. مهمترین نکتهای که در این رابطه باید بدانید این است که هاست، قلب اصلی وب سایت شماست و شما باید وب سایتی را داشته باشید که کم ترین میزان خطا و ارور را داشته باشد. بسیاری از هاستها در طول استفاده دچار آسیب و مشکلات متعددی میشوند که ممکن است سایت شما را از دسترس خارج کنند. اینجاست که با هدر رفتن کراول باجت یا بودجه خزش سایت مواجه میشوید. لینکهای شکسته به لینکهایی گفته میشود که مستقیما در نتایج جست و جو حضور دارند اما صفحه آنها از سایت حذف شده است. اینجاست که وقتی کاربری روی این لینک میزند با خطایی تحت عنوان ارور 404 رو به رو میشود.
در این صورت یک نکته کاربردی آن است که صفحاتی که نمیخواهید خزیده شوند را محدود کرده تا در استفاده مفید از زمان و بودجه خزش تغییر مثبتی ایجاد گردد. مدیریت فایل robots.txt می تواند به صورت دستی یا توسط یک ابزار بررسی سئو سایت انجام شود. بودجه خزش (Crawl Budget) تعداد صفحات از سایت شما است که گوگل در یک بازه زمانی خاص آن را ایندکس می کند. گوگل ممکن است طی روز 10 صفحه یا 10 هزار صفحه را بخرد و ایندکس کند. اگر شما هم میخواهید محتواهای سایتتان سریعتر ایندکس شوند و ترافیک بیشتری برای سایت خود داشته باشید، حتماً باید به فکر بهبود بودجه خزش سایتتان باشید. روند خزش سایت بدین شکل است که خزنده یا گوگل بات لیستی از urlهایی را که باید خزش کند، تحویل میگیرد و با استفاده از الگوریتمهایی که برای آن تعریف شده، شروع به گشتن در لیست موردنظر میکند.
به طور ایده ال ریدایرکت های تعریف شده در وب سایت نبایست حالت زنجیره ای از ریدایرکت ها به خود بگیرند. شناسایی تمامی این گونه ریدایرکت های زنجیری در وب سایت های بزرگ بدون استفاده از ابزار عملا یک مسئله امکان ناپذیر است. برای پاسخ به این سوال بایستی نگاهی به پست رسمی بلاگ گوگل بیندازیم. گوگل به سادگی توضیح داده است که مسئله Crawl یا پایش جز فاکتورهای رتبه بندی محسوب نمی شود. بنابراین خیلی طبیعیست که متخصصین سئو از فکر کردن به Crawl Budget غفلت کنند. صفحات با محتوای با کیفیت و بهروزتر احتمال بیشتری دارند که در اولویت کراول قرار بگیرند.
هر کد برگشتی دیگری به جز این دو مورد به معنای این است که سایت شما از بخشهای مختلف دچار مشکل است. برای دستیابی به این صفحات ميتوانید از گزارش سرور و یا ابزارهایی مانند سرچ کنسول استفاده کنید. بنابراین اگر سایت کندی دارید، همین حالا مشکل آن را بررسی کرده و تلاش کنید که آن را برطرف کنید؛ در غیر اینصورت، شما با دست خودتان، ترافیک سایتتان را به رقبا تحوبل میدهید. به همین خاطر است که باید از یک ساختار سایت مسطح برای سایتتان استفاده کنید. سرچ کنسول گوگل، ترکیبی از مقادیر crawl stat را برای بازدیدکنندگان از همه رباتهای گوگل ارائه می دهد. در اطلاعات ارائه شده توسط OnCrawl مشاهده کردیم که علاوه بر 12 ربات رسمی، یک ربات دیگر هم با نام Google AMP وجود دارد.
در عمل، انجام این کار برای سایتهایی که بیش از صفحه دارند آسان نیست. اما درصورتیکه بخواهید بیشترین استفاده را از نرخ خزش سایتتان داشته باشید باید این کار را انجام دهید. به همین دلیل است که لینکهای داخلی نقش کلیدی و مهمی را در اینجا ایفا میکنند. چرا که لینکهای داخلی، رباتهای گوگل را به سراسر صفحات مختلف روی سایت که میخواهید ایندکس شوند میفرستند. اما اگر سرعت سایت یا سرعت لود صفحات شما بالا باشد، رباتهای گوگل زمان کافی برای بازدید و ایندکس کردن تعدادی بیشتری از صفحات را خواهند داشت. افزایش سرعت سایت و سرعت لود صفحات سایت میتواند باعث شود رباتهای گوگل URL های بیشتر از سایت شما را کراول کنند.
گوگل به محتوای خوب علاقه زیادی دارد و در کمترین زمان ممکن، آنها را ایندکس میکند. در واقع، سایر خزندههای موتورهای جستجو به اندازه گوگل پیچیده نیستند و ممکن است با زبان های دیگر به جز HTML مشکل داشته باشند و توانایی خواندن آن را نداشته باشند. هرگز محتوای تکراری در سایت خود نداشته باشید، زیرا گوگل تمایل دارد فقط صفحاتی را که دارای مطالب جدید هستند ایندکس کند. البته مواردی که عنوان کردیم تنها گوشه کوچکی از دلایل کروال شدن سایت است و هیچ منبعی از اینکه تمامی دلایل کدامند، وجود ندارد. اما هر کاری را که احساس میکنید به شما و سایتتان کمک میکند تا بیشتر و با فاصله زمانی کمتری خزیده شوند، به لیست کارهای خود اضافه کنید.
خرید دوره آموزش سئو کلاه خاکستری