File Robots.txt là gì ? Giải pháp nào để tối ưu hóa tệp Robots.txt cho Blog

Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn.

Robots.txt là gì?

Công cụ tìm kiếm như Google gửi trình thu thập thông tin hoặc trình thu thập thông tin bất kỳ nó có thể là một loại chương trình di chuyển khắp nơi trên web. Khi các trình thu thập thông tin hoặc trình thu thập thông tin này tiếp cận trang web của bạn, trước tiên chúng sẽ đi qua tệp robots.txt của bạn để kiểm tra bất kỳ giao thức loại trừ rô bốt nào trước khi thu thập thông tin và lập chỉ mục các trang của bạn.

Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn một tệp khỏi Google, tùy thuộc vào loại tệp.

Hay theo cách hiểu thông thường: Robots.txt là một tệp văn bản đơn giản có sẵn trên tất cả các trang web và được đặt trong thư mục cấp cao nhất của trang web của bạn. Tệp này sử dụng một tập hợp các hướng dẫn để cho rô bốt công cụ tìm kiếm biết những trang nào trên trang web của bạn mà chúng có thể thu thập thông tin hoặc không thể thu thập thông tin và lập chỉ mục trong kết quả tìm kiếm.

Mỗi blog Blogger sẽ có một tệp robots.txt đi kèm theo mặc định và nó trông giống như bên dưới. Bạn có thể kiểm tra tệp robots.txt trên blog của mình bằng cách thêm /robots.txt bên cạnh tên miền của bạn. Ví dụ: https://www.ten_blog_cua_ban.com /robots.txt

Nội dung tệp robots.txt như sau:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Allow: /

Sitemap: https://www. ten_blog_cua_ban.com/sitemap.xml

Vậy những cú pháp trên đây có ý nghĩa là gì?

Như bạn có thể thấy ở trên, tệp robots.txt mặc định có một số thứ như User-agent (tác nhân người dùng), Mediapartners-Google (đối tác phương tiện-Google), User-agent: *( tác nhân người dùng: *), Disallow (không cho phép) và Sitemap (sơ đồ trang web). Nếu bạn chưa biết về những điều này, thì đây là lời giải thích:

Trước tiên, bạn cần biết về User agent :

Dòng user-agent xác định trình thu thập dữ liệu thuộc phạm vi áp dụng của quy tắc này. Giá trị của dòng user-agent không phân biệt chữ hoa chữ thường.

User-agent: [Bắt buộc, ít nhất một lệnh trong mỗi nhóm] Lệnh này chỉ định tên của ứng dụng tự động (còn được gọi là trình thu thập dữ liệu của công cụ tìm kiếm) phải tuân theo quy tắc đó. Đây là dòng đầu tiên của mọi nhóm quy tắc. Danh sách tác nhân người dùng của Google có liệt kê tên các tác nhân người dùng của Google. Dấu hoa thị (*) đại diện cho mọi trình thu thập dữ liệu, ngoại trừ các trình thu thập dữ liệu AdsBot. Ví dụ:

# Ví dụ 1: Chỉ chặn Googlebot

User-agent: Googlebot

Disallow: /

# Ví dụ 2: Chặn Googlebot và Adsbot

User-agent: Googlebot

User-agent: AdsBot-Google

Disallow: /

# Ví dụ 3: Chặn tất cả trừ trình thu thập thông tin AdsBot

User-agent: *

Disallow: /

Mediapartners-Google: Đối tác truyền thông Google là tác nhân người dùng cho Google adsense được sử dụng để cung cấp các quảng cáo có liên quan tốt hơn trên trang web của bạn dựa trên nội dung của bạn. Vì vậy, nếu bạn không cho phép họ, bạn sẽ không thể thấy bất kỳ quảng cáo nào trên các trang bị chặn của mình.

User-agent: * - Như vậy các bạn đã biết user-agent là gì, vậy user-agent: * là gì ? Tác nhân người dùng được đánh dấu hoa thị (*) có thể áp dụng cho tất cả các trình thu thập thông tin và rô bốt có thể là rô bốt Bing, trình thu thập thông tin liên kết hoặc bất kỳ phần mềm khách nào có thể truy cập vào tất cả nội dung trên blog bao gồm cả trang chủ.

Disallow: Bằng cách thêm lệnh không cho phép, bạn đang yêu cầu các trình thu thập dữ liệu không được thu thập dữ liệu và lập chỉ mục các trang. Trình thu thập dữ liệu bỏ qua lệnh không có đường dẫn. Giá trị của lệnh disallow có phân biệt chữ hoa chữ thường.

Disallow: [Ít nhất một mục disallow hoặc allow trên mỗi quy tắc] Một thư mục hoặc trang (tương đối so với miền gốc) mà bạn không muốn tác nhân người dùng thu thập dữ liệu trên đó. Nếu quy tắc đề cập đến một trang, thì trang đó phải có tên đầy đủ (như tên xuất hiện trong trình duyệt). Quy tắc này phải bắt đầu bằng một ký tự / và nếu quy tắc này đề cập đến một thư mục, thì thư mục đó phải kết thúc bằng một dấu /.

Disallow: /search có nghĩa là bạn không cho phép kết quả tìm kiếm blog của mình theo mặc định. Bạn không cho phép trình thu thập thông tin vào thư mục / tìm kiếm tiếp theo sau tên miền của bạn. Đó là một trang tìm kiếm như https://www.ten_blog_cua_ban.com/search/label/nhan_cua_ban sẽ không được thu thập thông tin và không bao giờ được lập chỉ mục.

Allow - Cho phép: / chỉ đơn giản là đề cập đến hoặc bạn đang cho phép các công cụ tìm kiếm thu thập thông tin các trang đó một cách cụ thể.

allow: [Ít nhất một mục disallow hoặc allow trên mỗi quy tắc] Một thư mục hoặc trang (tương đối so với miền gốc) mà tác nhân người dùng đã chỉ định được phép thu thập dữ liệu trên đó. Lệnh này được dùng để ghi đè lệnh disallow nhằm cho phép thu thập dữ liệu trên một thư mục con hoặc một trang trong một thư mục không được phép. Đối với một trang đơn lẻ, hãy chỉ định tên trang đầy đủ như tên xuất hiện trong trình duyệt. Đối với một thư mục, quy tắc phải kết thúc bằng một dấu /.

Allow: Lệnh allow chỉ định các đường dẫn mà các trình thu thập dữ liệu đã chỉ định có thể thu thập dữ liệu. Khi không có đường dẫn nào được chỉ định, lệnh này sẽ bị bỏ qua. Giá trị của lệnh allow có phân biệt chữ hoa chữ thường.

Sitemap: [Không bắt buộc, có hoặc không có trong mỗi tệp] Vị trí của sơ đồ trang web cho trang web này. URL sơ đồ trang web phải là một URL đủ điều kiện; Google không giả định hoặc kiểm tra các phiên bản thay thế (http/https/www/không có www). Sơ đồ trang web là một cách hay để chỉ định nội dung mà Google nên thu thập dữ liệu, chứ không phải nội dung mà Google được phép hoặc không được phép thu thập dữ liệu. Tìm hiểu thêm về sơ đồ trang web. Ví dụ:

Sitemap: https:// ten_blog_cua_ban.com/sitemap.xml

Sitemap: http://www. ten_blog_cua_ban.com/sitemap.xml

Google, Bing, Yahoo và các công cụ tìm kiếm phổ biến khác hỗ trợ trường sitemap trong tệp robots.txt. Giá trị của trường sitemap có phân biệt chữ hoa chữ thường.

Sơ đồ trang web: Sơ đồ trang web giúp thu thập thông tin và lập chỉ mục tất cả các trang có thể truy cập của bạn và do đó, trong robots.txt mặc định, bạn có thể thấy rằng blog của mình đặc biệt cho phép trình thu thập thông tin vào sơ đồ trang web. Bạn có thể tìm hiểu thêm về sơ đồ trang web Blogger tại đây. Đã xảy ra sự cố với sơ đồ trang web mặc định của Blogger, vì vậy hãy tìm hiểu cách tạo sơ đồ trang web trong Blogger và thông báo cho các công cụ tìm kiếm.

Sơ đồ trang XML là một tệp XML chứa danh sách tất cả các trang trên trang web mà bạn muốn rô bốt khám phá và truy cập.

Ví dụ: Bạn có thể muốn các công cụ tìm kiếm truy cập vào tất cả các bài đăng trên blog của bạn, để chúng xuất hiện trong kết quả tìm kiếm. Tuy nhiên, bạn có thể không muốn họ có quyền truy cập vào các trang thẻ của bạn, vì những trang này có thể không tạo nên các trang đích tốt và do đó sẽ không được đưa vào kết quả tìm kiếm.

Sơ đồ trang XML cũng có thể chứa thông tin bổ sung về mỗi URL, dưới dạng dữ liệu meta. Và cũng giống như robots.txt, sơ đồ trang XML là thứ bắt buộc phải có. Điều quan trọng không chỉ là đảm bảo các bot của công cụ tìm kiếm có thể khám phá tất cả các trang của bạn mà còn giúp chúng hiểu được tầm quan trọng của các trang của bạn.

Ví dụ về tệp robots.txt của buzzfeed.com:

Cách tạo và thêm tệp robots.txt tùy chỉnh trong Blogger

Trong Blogger, bạn có thể thêm tệp robots.txt dễ dàng từ trang tổng quan blog của mình. Để thêm tệp robots.txt tùy chỉnh, chỉ cần đăng nhập vào hồ sơ Blogger và chọn blog của bạn. Bây giờ, hãy truy cập trang tổng quan >> cài đặt >> tùy chọn tìm kiếm và bạn có thể thấy tệp robots.txt tùy chỉnh trong phần thu thập thông tin và lập chỉ mục. Nhấp vào chỉnh sửa và bật nội dung robots.txt tùy chỉnh và thêm tệp robots.txt của bạn.

Sau khi hoàn thành, hãy nhấp vào lưu thay đổi. Bây giờ để kiểm tra tệp robots.txt của bạn, chỉ cần thêm /robots.txt vào cuối URL blog của bạn và bạn có thể thấy tệp robots.txt tùy chỉnh của mình. Sau khi thêm tệp robots.txt tùy chỉnh của bạn, bạn có thể gửi blog của mình đến các công cụ tìm kiếm. Tìm hiểu cách gửi blog của bạn lên Google, Bing và Yahoo.

Một số câu hỏi và trả lời liên quan đến tệp robots.txt:

Tôi nên dùng chương trình nào để tạo tệp robots.txt?

Bạn có thể dùng bất kỳ chương trình gì có khả năng tạo một tệp văn bản hợp lệ. Những chương trình thường được dùng để tạo tệp robots.txt là Notepad, TextEdit, vi hoặc emacs. Đọc thêm về cách tạo tệp robots.txt. Sau khi tạo tệp, hãy dùng Trình kiểm tra robots.txt để xác thực tệp đó.

Trang web của tôi có cần tệp robots.txt không?

Không. Khi Googlebot truy cập một trang web, trước tiên chúng tôi yêu cầu quyền thu thập dữ liệu bằng cách cố gắng truy xuất tệp robots.txt. Thường thì một trang web không có tệp robots.txt, thẻ meta robots hay tiêu đề HTTP X-Robots-Tag sẽ được thu thập dữ liệu và lập chỉ mục như bình thường.

Tôi nên không cho phép những trang nào trong Blogger?

Câu hỏi này hơi phức tạp và chúng tôi không thể dự đoán những trang nào nên cho phép và những gì không cho phép trong Blog của bạn. Bạn có thể không cho phép các trang như chính sách bảo mật, Điều khoản & điều kiện, liên kết được che giấu, nhãn cũng như kết quả tìm kiếm và tất cả phụ thuộc vào bạn. Vì bạn nhận được một số lưu lượng truy cập hợp lý từ kết quả tìm kiếm, bạn không nên cho phép trang nhãn, trang chính sách bảo mật ..

Cách không cho phép các trang trong Blogger bằng robots.txt

Bạn có thể không cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục các trang hoặc bài đăng cụ thể trong Blogger bằng cách sử dụng tệp robots.txt của bạn.

Chúng tôi không có lý do gì để chặn công cụ tìm kiếm trên bất kỳ bài đăng cụ thể nào và nếu bạn muốn vậy thì chỉ cần thêm Disallow: /năm/tháng/url-bai-viet-cua-ban.html vào tệp robots.txt của bạn. Đó là sao chép URL bài đăng của bạn bên cạnh tên miền của bạn và thêm nó vào tệp robots.txt của bạn.

Tương tự những gì bạn sẽ cần làm để không cho phép bất kỳ trang cụ thể nào. Sao chép URL trang bên cạnh tên miền của bạn và thêm nó như thế này Disallow: /p/your-page.html trong tệp robots.txt của bạn.

Tệp robots.txt tốt nhất và được đề xuất cho Blogger

Chỉ sử dụng tệp robots.txt tùy chỉnh nếu bạn chắc chắn 100% về những gì bạn đang làm. Việc sử dụng robots.txt tùy chỉnh không đúng cách có thể gây hại cho thứ hạng trang web của bạn. Vì vậy, để có kết quả tốt nhất, bạn nên sử dụng tệp robots.txt mặc định trong Blogger hoạt động tốt. Nhưng hãy thay đổi sơ đồ trang web mặc định trong robots.txt của bạn và thêm sơ đồ trang web tùy chỉnh của bạn cho Blogger.

Làm cách nào để tôi có thể làm chậm quá trình thu thập dữ liệu của Google trên trang web của tôi?

Thường thì bạn có thể điều chỉnh chế độ cài đặt tốc độ thu thập dữ liệu trong tài khoản Google Search Console của mình.

Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường dẫn tương đối không?

Không. Các lệnh trong tệp robots.txt (ngoại trừ sitemap:) chỉ hợp lệ đối với các đường dẫn tương đối.

Tôi có thể đặt tệp robots.txt trong một thư mục con không?

Không. Tệp phải được đặt trong thư mục cấp cao nhất của trang web.

Tôi muốn chặn một thư mục riêng tư. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?

Không. Tệp robots.txt cho phép nhiều người dùng đọc được. Nếu không muốn công khai thư mục hoặc tên tệp chứa nội dung, thì bạn đừng đưa những nội dung như vậy vào tệp robots.txt. Bạn không nên phân phát nhiều tệp robots.txt dựa trên tác nhân người dùng hoặc các thuộc tính khác.

Tôi có phải đưa vào một lệnh allow để cho phép thu thập dữ liệu không?

Không, bạn không cần đưa vào một lệnh allow. Tất cả URL đều được ngầm hiểu là đã được cho phép và lệnh allow được dùng để ghi đè lệnh disallow trong cùng một tệp robots.txt.

Tôi nên dùng phương thức nào để chặn các trình thu thập dữ liệu?

Còn tùy. Nói ngắn gọn thì có những lý do chính đáng để sử dụng từng phương thức sau:

robots.txt: Hãy dùng tệp này nếu việc thu thập dữ liệu nội dung đang gây ra vấn đề trên máy chủ của bạn. Ví dụ: bạn nên chặn việc thu thập dữ liệu trên các tập lệnh lịch vô hạn. Đừng dùng robots.txt để chặn nội dung riêng tư (mà hãy dùng phương thức xác thực phía máy chủ) hoặc để xử lý quá trình chuẩn hóa . Để đảm bảo Google không lập chỉ mục một URL, hãy chuyển sang dùng thẻ meta robots hoặc tiêu đề HTTP X-Robots-Tag.

Thẻ meta robots: Hãy dùng thẻ này nếu bạn cần kiểm soát cách thức xuất hiện của một trang HTML đơn lẻ trong kết quả tìm kiếm hoặc để đảm bảo trang này không xuất hiện.

Tiêu đề HTTP X-Robots-Tag: Hãy dùng cách này nếu bạn cần kiểm soát cách thức xuất hiện của nội dung trong kết quả tìm kiếm hoặc để đảm bảo nội dung này không xuất hiện.

Tôi có thể dùng tệp robots.txt, thẻ meta robots hoặc tiêu đề HTTP X-Robots-Tag để xoá trang web của người khác khỏi kết quả tìm kiếm không?

Không. Những phương thức này chỉ áp dụng được cho những trang web mà bạn có thể sửa đổi mã hoặc thêm tệp. Hãy tìm hiểu thêm về cách xóa thông tin khỏi Google.

Điều gì sẽ xảy ra nếu tệp robots.txt của tôi chứa lỗi hoặc tôi dùng một lệnh không được hỗ trợ?

Các trình thu thập dữ liệu web nói chung rất linh hoạt và thường sẽ không bị ảnh hưởng khi có những sai sót nhỏ trong tệp robots.txt. Nhìn chung, tình huống xấu nhất có thể xảy ra là trình thu thập dữ liệu sẽ bỏ qua những lệnh không chính xác/không được hỗ trợ. Tuy nhiên, hãy lưu ý rằng mặc dù Google không thể đọc suy nghĩ của bạn khi diễn giải tệp robots.txt nhưng chúng tôi vẫn phải diễn giải tệp robots.txt mà chúng tôi tìm nạp được. Dù vậy, nếu bạn biết có vấn đề trong tệp robots.txt của mình thì việc khắc phục những vấn đề này thường khá dễ dàng.

Nếu tôi dùng một lệnh disallow trong tệp robots.txt để chặn Google thu thập dữ liệu trên một trang, thì trang đó có biến mất khỏi kết quả tìm kiếm không?

Việc chặn Google thu thập dữ liệu trên một trang có thể khiến trang đó bị xóa khỏi chỉ mục của Google.

Tuy nhiên, lệnh disallow trong tệp robots.txt không đảm bảo rằng một trang sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định sự phù hợp của một trang dựa trên những thông tin bên ngoài như các đường liên kết đến trang đó và hiển thị URL đó trong kết quả. Nếu bạn muốn đảm bảo rằng Google không lập chỉ mục một trang nào đó, hãy dùng thẻ meta robots noindex hoặc tiêu đề HTTP X-Robots-Tag. Trong trường hợp này, đừng dùng lệnh disallow trong tệp robots.txt đối với trang này do trang này phải được thu thập dữ liệu để Google có thể nhìn thấy và tuân theo thẻ. Tìm hiểu cách kiểm soát nội dung bạn chia sẻ với Google

Sẽ mất bao lâu để những thay đổi trong tệp robots.txt của tôi tác động đến kết quả tìm kiếm?

Trước hết, bộ nhớ đệm của tệp robots.txt phải được làm mới (chúng tôi thường lưu nội dung vào bộ nhớ đệm trong tối đa một ngày). Bạn có thể tăng tốc quá trình này bằng cách gửi tệp robots.txt đã cập nhật cho Google. Ngay cả sau khi tìm thấy nội dung thay đổi, việc thu thập dữ liệu và lập chỉ mục vẫn là một quá trình phức tạp và đôi khi có thể tốn nhiều thời gian đối với các URL riêng lẻ. Vì vậy, chúng tôi không thể đưa ra thời gian chính xác. Ngoài ra, hãy lưu ý rằng ngay cả khi tệp robots.txt của bạn đang chặn quyền truy cập vào một URL nào đó, URL đó có thể vẫn xuất hiện trong kết quả tìm kiếm dù chúng tôi không thể thu thập dữ liệu. Nếu bạn muốn đẩy nhanh việc xóa những trang bạn đã chặn khỏi Google, hãy gửi một yêu cầu xóa.

Kết luận:

Hy vọng bài đăng này đã giải thích rõ ràng cho bạn về robots.txt cũng như cách tạo và thêm tệp robots.txt tùy chỉnh trong Blogger. Trên cơ sở những phân tích về cú pháp tệp robots.txt mẫu, những câu hỏi và trả lời liên quan đến tệp robots.txt, cùng các ví dụ cụ thể về tệp robots.txt trên blog/web. Hy vọng các bạn đã có giải pháp để tối ưu hóa tệp robots.txt trên trang blog của mình. Vui lòng chia sẻ nó và nếu bạn có bất kỳ câu hỏi nào khác về robots.txt của Blogger thì hãy để bình luận của mình bên dưới./.