Robots.txt là gì? sử dụng file robots.txt hiệu quả

Chắc hẳn khi nge tới từ robots.txt thì tất cả chúng ta đều ngĩ ngay đến những chú robots thông minh nhưng ở đây tôi muốn nói đến file robots.txt chứ không phải những xgus robots kia. Vậy robots.txt là gì, nó có tác dụng như thế nào. Qua bài viết này tôi sẽ giới thiệu những thắc mắc đó cho các bạn.

1. Robots.txt là gì?

Robots.txt là một file có đuôi (.txt)được đặt trong thư mục root. nó giúp chúng ta điều hướng từng bọ tìm kiếm đến các trang mà chúng ta muốn nó đến
Ví dụ:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Robots.txt được tại bởi công cụ notepate. Robots.txt có thể trực tiếp quy định từng loại bot của công cụ tìm kiếm khác vào website nào nó hay tùng phần của website đó.

2. Cách sử dụng file robots.txt hiệu quả


Allow: / : Cho phép dò và index toàn bộ trang và các thư mục, các file
Disallow: /: Chặn không cho phép bot truy cập và index toàn bộ
Disallow: /abc.html : Chặn một trang cố định
Disallow: /administrator/  : chặn không cho bot truy cập vào trang quản trị
User-agent: Googlebot, Disallow: /*.doc$ : Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: * : cho phép tất cả các loại bot


3.Nên tránh những sai sót sau

  • khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót
  • Phân biệt chữ hoa chữ thường.
  • Không được viết dư, thiếu khoảng trắng.
  • Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
  • Mỗi một câu lệnh nên viết trên 1 dòng.
Khi đọc qua bài này chắc cũng giúp cho các bạn hiểu hơn về robots.txt dù chưa thật sự đầy đủ nhưng cũng đã giới thiệu cho các bạn các kiến thức cơ bản . Nếu có đóng góp gì các bạn có thể comment bên dưới.

Cảm ơn các bạn đã heo dõi !