Kiểm tra sự hoạt động của file robots.txt dễ dàng hơn

Để thu thập dữ liệu website hoặc không trên Google là câu hỏi dành cho robots.txt.

Xây dựng và duy trì các file robots.txt chính xác đôi khi có thể khó khăn. Trong khi hầu hết các trang web có thể dễ dàng (mẹo: họ thậm chí không cần một tập tin robots.txt), việc tìm kiếm các chỉ thị trong một tập tin robots.txt lớn đang hoặc đã chặn URL có thể khá khó khăn. Để làm cho dễ dàng hơn, Google bây giờ công bố một công cụ kiểm tra robots.txt cập nhật trong Webmaster Tools.

Bạn có thể tìm thấy công cụ kiểm tra được cập nhật trong Webmaster Tools trong phần Thu thập thông tin:

robots.txt tester

Chụp màn hình giao diện Robots.txt Tester

Ở đây bạn sẽ thấy các tập tin robots.txt hiện tại, và có thể kiểm tra URL mới để xem liệu chúng có đang không được phép cho thu thập dữ liệu hay không. Hướng dẫn theo cách của bạn thông qua các chỉ thị phức tạp, nó sẽ làm nổi bật một cụ thể đã dẫn đến quyết định cuối cùng. Bạn có thể thực hiện thay đổi trong tập tin và kiểm tra, bạn chỉ cần tải lên các phiên bản mới của tập tin máy chủ của bạn sau đó để làm cho những thay đổi có hiệu lực. Trang web phát triển của Google có nhiều chỉ thị về robots.txt và làm thế nào các tập tin được xử lý.

Ngoài ra, bạn sẽ có thể xem xét các phiên bản cũ của tập tin robots.txt của bạn, và nhìn thấy khi truy cập các vấn đề ngăn cản chúng việc thu thập dữ liệu. Ví dụ, nếu Googlebot thấy một lỗi máy chủ kí hiệu là 500 cho các tập tin robots.txt, Google sẽ tạm dừng thu thập hơn nữa nội dung website.

Vì có thể có một số lỗi hoặc cảnh báo hiển thị cho các trang web hiện tại của bạn, Google đề nghị kiểm tra 2 lần các tập tin robots.txt của họ. Bạn cũng có thể kết hợp nó với các bộ phận khác của Webmaster Tools: ví dụ, bạn có thể sử dụng cập nhật “Fetch as Google” để làm cho các trang quan trọng trên trang web của bạn. Nếu có URL bị chặn được báo cáo, bạn có thể sử dụng thử nghiệm robots.txt này để tìm chỉ thị đó là ngăn chặn chúng, và, tất nhiên, sau đó cải thiện đó. Một vấn đề thường gặp, Google đã nhìn thấy đến từ các tập tin robots.txt cũ chặn CSS, JavaScript, hoặc nội dung di động – hãy sửa lại một khi bạn đã nhìn thấy nó.

 

Leave a Reply

Your email address will not be published. Required fields are marked *


+ one = 10

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>