Tóm lại,  tệp Robots.txt kiểm soát cách các công cụ tìm kiếm truy cập trang web của bạn.

Tệp văn bản này chứa “chỉ thị” chỉ thị cho công cụ tìm kiếm những trang nào phải “Cho phép” và “Không cho phép” truy cập công cụ tìm kiếm.

Việc thêm các chỉ thị sai ở đây có thể tác động tiêu cực đến thứ hạng của bạn vì nó có thể cản trở các công cụ tìm kiếm thu thập dữ liệu các trang (hoặc toàn bộ) trang web của bạn.

“Robot” (liên quan đến SEO) là gì?

Robot.txt là gì? là các ứng dụng “ thu thập thông tin ” qua các trang web, ghi lại (tức là “lập chỉ mục”) thông tin mà chúng bao gồm.

Liên quan đến tệp Robots.txt, những rô bốt này được gọi là Tác nhân người dùng .

Bạn cũng có thể nghe thấy họ gọi:

  • Nhện
  • Bots
  • Trình thu thập thông tin web

Đây không phải là tên Tác nhân người dùng chính thức của trình thu thập thông tin của công cụ tìm kiếm. Nói cách khác, bạn sẽ không “Không cho phép” một “Trình thu thập thông tin”, bạn cần lấy tên chính thức của công cụ tìm kiếm (trình thu thập thông tin của Google được gọi là “Googlebot”).

Các bot này bị ảnh hưởng theo một số cách, bao gồm nội dung bạn tạo và các liên kết trỏ đến trang web của bạn.

Tệp Robots.txt của bạn là một phương tiện để nói chuyện trực tiếp với các bot của công cụ tìm kiếm , cung cấp cho chúng chỉ thị rõ ràng về những phần nào trên trang web của bạn mà bạn muốn được thu thập thông tin (hoặc không được thu thập thông tin).

Làm thế nào để sử dụng tệp Robots.txt?

Bạn cần hiểu “cú pháp” để tạo tệp Robots.txt.

1. Xác định tác nhân người dùng

Nêu tên của rô bốt mà bạn đang đề cập đến (tức là Google, Yahoo, v.v.). Một lần nữa, bạn sẽ muốn tham khảo danh sách đầy đủ các tác nhân người dùng để được trợ giúp.

2. Không cho phép

Nếu bạn muốn chặn quyền truy cập vào các trang hoặc một phần trên trang web của mình, hãy nêu đường dẫn URL tại đây.

3. Cho phép

Nếu bạn muốn trực tiếp bỏ chặn một đường dẫn URL trong trang gốc bị chặn, hãy nhập đường dẫn thư mục con URL đó vào đây.

Nói tóm lại, bạn có thể sử dụng robots.txt để nói với các trình thu thập thông tin này rằng “Lập chỉ mục các trang này nhưng không lập chỉ mục các trang khác này”.

Tại sao Robots.txt lại quan trọng như vậy

Nó có vẻ hơi trực quan khi “chặn” các trang khỏi các công cụ tìm kiếm. Có một số lý do và trường hợp để làm như vậy:

1. Chặn thông tin nhạy cảm

Thư mục là một ví dụ điển hình.

Bạn có thể muốn ẩn những thứ có thể chứa dữ liệu nhạy cảm như:

  • /cart/
  • /cgi-bin/
  • /scripts/
  • /wp-admin/

2. Chặn các trang chất lượng thấp

Google đã nhiều lần tuyên bố rằng điều quan trọng là phải giữ cho trang web của bạn “được cắt tỉa” khỏi các trang chất lượng thấp. Có nhiều rác trên trang web của bạn có thể làm giảm hiệu suất.

3. Chặn nội dung trùng lặp

Bạn có thể muốn loại trừ bất kỳ trang nào có nội dung trùng lặp. Ví dụ: nếu bạn cung cấp “phiên bản in” của một số trang, bạn sẽ không muốn Google lập chỉ mục các phiên bản trùng lặp vì nội dung trùng lặp có thể ảnh hưởng đến thứ hạng của bạn.

Tuy nhiên, hãy nhớ rằng mọi người vẫn có thể truy cập và liên kết đến các trang này, vì vậy nếu thông tin là loại bạn không muốn người khác xem, bạn sẽ cần sử dụng bảo vệ bằng mật khẩu để giữ thông tin đó ở chế độ riêng tư.

Đó là vì có thể có một số trang chứa thông tin nhạy cảm mà bạn không muốn hiển thị trên SERP.

Định dạng Robots.txt cho Cho phép và Không cho phép

Robots.txt thực sự khá đơn giản để sử dụng.

Theo nghĩa đen, bạn cho rô bốt biết trang nào là “Cho phép” (có nghĩa là chúng sẽ lập chỉ mục chúng) và trang nào “Không cho phép” (chúng sẽ bỏ qua).

Bạn sẽ chỉ sử dụng cái sau một lần để liệt kê các trang mà bạn không muốn thu thập thông tin. Lệnh “Cho phép” chỉ được sử dụng khi bạn muốn một trang được thu thập thông tin, nhưng trang mẹ của nó là “Không được phép”.

Đây là giao diện của tệp robots.txt cho trang web của tôi:

Lệnh tác nhân người dùng ban đầu cho tất cả các rô bốt web (tức là *) – không chỉ rô bốt cho các công cụ tìm kiếm cụ thể – rằng các hướng dẫn này áp dụng cho chúng.

Cách thiết lập Robots.txt cho trang web của bạn

Trước tiên, bạn sẽ cần viết các chỉ thị của mình vào một tệp văn bản .

Tiếp theo, tải tệp văn bản lên thư mục cấp cao nhất của trang web của bạn – tệp này cần được thêm thông qua Cpanel.

Tệp trực tiếp của bạn sẽ luôn xuất hiện ngay sau “.com /” trong URL của bạn. Ví dụ: của chúng tôi được đặt tại https://webris.org/robot.txt .

Nếu nó được đặt tại www.webris.com/blog/robot.txt, các trình thu thập thông tin thậm chí sẽ không buồn tìm kiếm nó và không có lệnh nào của nó sẽ được tuân theo.

Nếu bạn có tên miền phụ, hãy đảm bảo rằng chúng cũng có tệp robots.txt của riêng mình. Ví dụ: tên miền phụ training.webris.org của chúng tôi có bộ chỉ thị riêng – điều này cực kỳ quan trọng cần kiểm tra khi chạy kiểm tra SEO .

Kiểm tra tệp Robots.txt của bạn

Google cung cấp công cụ kiểm tra robots.txt miễn phí mà bạn có thể sử dụng để kiểm tra.

Nó nằm trong Google Search Console trong Crawl> Robots.txt Tester .

Đưa Robots.txt hoạt động để cải thiện SEO

Bây giờ bạn đã hiểu yếu tố quan trọng này của SEO, hãy kiểm tra trang web của chính bạn để đảm bảo các công cụ tìm kiếm đang lập chỉ mục các trang bạn muốn và bỏ qua những trang bạn muốn tránh khỏi SERPs.

Trong tương lai, bạn có thể tiếp tục sử dụng robots.txt để thông báo cho các công cụ tìm kiếm cách chúng thu thập dữ liệu trang web của bạn.

Nguồn: webris

LEAVE A REPLY

Please enter your comment!
Please enter your name here