Công cụ tìm kiếm như Google gửi
trình thu thập thông tin hoặc trình thu thập thông tin bất kỳ nó có thể là một
loại chương trình di chuyển khắp nơi trên web. Khi các trình thu thập thông tin
hoặc trình thu thập thông tin này tiếp cận trang web của bạn, trước tiên chúng
sẽ đi qua tệp robots.txt của bạn để kiểm tra bất kỳ giao thức loại trừ rô bốt
nào trước khi thu thập thông tin và lập chỉ mục các trang của bạn.
Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể
truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để
ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; Tệp robots.txt chủ yếu
dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của
bạn và thường dùng để ẩn một tệp khỏi Google, tùy thuộc vào loại tệp.
Hay theo cách hiểu thông thường: Robots.txt là
một tệp văn bản đơn giản có sẵn trên tất cả các trang web và được đặt trong thư mục cấp cao nhất của trang web của
bạn. Tệp này sử dụng một tập hợp các hướng dẫn để cho rô bốt công cụ tìm kiếm
biết những trang nào trên trang web của bạn mà chúng có thể thu thập thông tin hoặc không thể thu thập
thông tin và lập chỉ mục trong kết quả tìm kiếm.
Mỗi blog Blogger sẽ có một tệp
robots.txt đi kèm theo mặc định và nó trông giống như bên dưới. Bạn có thể kiểm
tra tệp robots.txt trên blog của mình bằng cách thêm /robots.txt bên cạnh tên
miền của bạn. Ví dụ: https://www.ten_blog_cua_ban.com /robots.txt
Nội dung tệp robots.txt như
sau:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www. ten_blog_cua_ban.com/sitemap.xml
Vậy những cú pháp trên đây
có ý nghĩa là gì?
Như bạn có thể thấy ở trên, tệp robots.txt mặc định có một số thứ như User-agent
(tác nhân người dùng), Mediapartners-Google (đối tác phương tiện-Google), User-agent:
*( tác nhân người dùng: *), Disallow (không cho phép) và Sitemap (sơ đồ trang web).
Nếu bạn chưa biết về những điều này, thì đây là lời giải thích:
Trước tiên, bạn cần biết về User
agent :
Dòng user-agent xác định trình thu thập dữ liệu thuộc phạm vi áp dụng của
quy tắc này. Giá trị của dòng user-agent không phân biệt chữ hoa chữ thường.
User-agent: [Bắt buộc, ít nhất một lệnh trong mỗi nhóm] Lệnh này chỉ định
tên của ứng dụng tự động (còn được gọi là trình thu thập dữ liệu của công cụ
tìm kiếm) phải tuân theo quy tắc đó. Đây là dòng đầu tiên của mọi nhóm quy tắc.
Danh sách tác nhân người dùng của Google có liệt kê tên các tác nhân người dùng
của Google. Dấu hoa thị (*) đại diện cho mọi trình thu thập dữ liệu, ngoại trừ
các trình thu thập dữ liệu AdsBot. Ví dụ:
# Ví dụ 1: Chỉ chặn Googlebot
User-agent: Googlebot
Disallow: /
# Ví dụ 2: Chặn Googlebot và Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Ví dụ 3: Chặn tất cả trừ trình thu thập thông tin AdsBot
User-agent: *
Disallow: /
Mediapartners-Google: Đối
tác truyền thông Google là tác nhân người dùng cho Google adsense được sử dụng
để cung cấp các quảng cáo có liên quan tốt hơn trên trang web của bạn dựa trên
nội dung của bạn. Vì vậy, nếu bạn không cho phép họ, bạn sẽ không thể thấy bất
kỳ quảng cáo nào trên các trang bị chặn của mình.
User-agent: * - Như vậy các bạn đã biết user-agent là
gì, vậy user-agent: * là gì ? Tác nhân người dùng được đánh dấu hoa thị (*) có
thể áp dụng cho tất cả các trình thu thập thông tin và rô bốt có thể là rô bốt
Bing, trình thu thập thông tin liên kết hoặc bất kỳ phần mềm khách nào có thể truy
cập vào tất cả nội dung trên blog bao gồm cả trang chủ.
Disallow: Bằng cách thêm lệnh không cho phép, bạn
đang yêu cầu các trình thu thập dữ liệu không được thu thập dữ liệu và lập
chỉ mục các trang. Trình thu thập dữ liệu bỏ qua lệnh không có đường dẫn. Giá
trị của lệnh disallow có phân biệt chữ hoa chữ thường.
Disallow: [Ít nhất một mục disallow hoặc allow trên mỗi quy tắc] Một thư mục
hoặc trang (tương đối so với miền gốc) mà bạn không muốn tác nhân người dùng
thu thập dữ liệu trên đó. Nếu quy tắc đề cập đến một trang, thì trang đó phải
có tên đầy đủ (như tên xuất hiện trong trình duyệt). Quy tắc này phải bắt đầu
bằng một ký tự / và nếu quy tắc này đề cập đến một thư mục, thì thư mục đó
phải kết thúc bằng một dấu /.
Disallow: /search có nghĩa là bạn không cho phép kết quả
tìm kiếm blog của mình theo mặc định. Bạn không cho phép trình thu thập thông
tin vào thư mục / tìm kiếm tiếp theo sau tên miền của bạn. Đó là một trang tìm
kiếm như https://www.ten_blog_cua_ban.com/search/label/nhan_cua_ban
sẽ không được thu thập thông tin và không bao giờ được lập chỉ mục.
Allow - Cho phép: / chỉ đơn giản là đề cập đến hoặc bạn đang
cho phép các công cụ tìm kiếm thu thập thông tin các trang đó một cách cụ thể.
allow: [Ít nhất một mục disallow hoặc allow trên mỗi quy tắc] Một thư mục
hoặc trang (tương đối so với miền gốc) mà tác nhân người dùng đã chỉ định được
phép thu thập dữ liệu trên đó. Lệnh này được dùng để ghi đè lệnh disallow nhằm
cho phép thu thập dữ liệu trên một thư mục con hoặc một trang trong một thư mục
không được phép. Đối với một trang đơn lẻ, hãy chỉ định tên trang đầy đủ như
tên xuất hiện trong trình duyệt. Đối với một thư mục, quy tắc phải kết thúc bằng
một dấu /.
Allow: Lệnh allow chỉ định các đường dẫn mà các trình thu thập dữ liệu đã
chỉ định có thể thu thập dữ liệu. Khi không có đường dẫn nào được chỉ định, lệnh
này sẽ bị bỏ qua. Giá trị của lệnh allow có phân biệt chữ hoa chữ thường.
Sitemap: [Không bắt buộc, có hoặc không có trong mỗi
tệp] Vị trí của sơ đồ trang web cho trang web này. URL sơ đồ trang web phải là
một URL đủ điều kiện; Google không giả định hoặc kiểm tra các phiên bản thay thế
(http/https/www/không có www). Sơ đồ trang web là một cách hay để chỉ định nội
dung mà Google nên thu thập dữ liệu, chứ không phải nội dung mà Google được
phép hoặc không được phép thu thập dữ liệu. Tìm hiểu thêm về sơ đồ trang web.
Ví dụ:
Sitemap: https:// ten_blog_cua_ban.com/sitemap.xml
Sitemap: http://www. ten_blog_cua_ban.com/sitemap.xml
Google, Bing, Yahoo và các công cụ tìm kiếm phổ biến khác hỗ trợ trường
sitemap trong tệp robots.txt. Giá trị của trường sitemap có phân biệt chữ
hoa chữ thường.
Sơ đồ trang web: Sơ đồ trang web giúp thu thập thông tin và lập chỉ mục tất
cả các trang có thể truy cập của bạn và do đó, trong robots.txt mặc định, bạn
có thể thấy rằng blog của mình đặc biệt cho phép trình thu thập thông tin vào
sơ đồ trang web. Bạn có thể tìm hiểu thêm về sơ đồ trang web Blogger tại đây.
Đã xảy ra sự cố với sơ đồ trang web mặc định của Blogger, vì vậy hãy tìm hiểu
cách tạo sơ đồ trang web trong Blogger và thông báo cho các công cụ tìm kiếm.
Sơ đồ trang XML là một tệp XML chứa danh sách tất cả các trang trên trang
web mà bạn muốn rô bốt khám phá và truy cập.
Ví dụ: Bạn có thể muốn các công cụ tìm kiếm truy
cập vào tất cả các bài đăng trên blog của bạn, để chúng xuất hiện trong kết quả
tìm kiếm. Tuy nhiên, bạn có thể không muốn họ có quyền truy cập vào các trang
thẻ của bạn, vì những trang này có thể không tạo nên các trang đích tốt và do
đó sẽ không được đưa vào kết quả tìm kiếm.
Sơ đồ trang XML cũng có thể chứa thông tin bổ sung về mỗi URL, dưới dạng dữ
liệu meta. Và cũng giống như robots.txt, sơ đồ trang XML là thứ bắt buộc phải
có. Điều quan trọng không chỉ là đảm bảo các bot của công cụ tìm kiếm có thể
khám phá tất cả các trang của bạn mà còn giúp chúng hiểu được tầm quan trọng của
các trang của bạn.
Cách tạo và thêm tệp
robots.txt tùy chỉnh trong Blogger
Trong Blogger, bạn có thể thêm tệp robots.txt dễ dàng từ trang tổng quan
blog của mình. Để thêm tệp robots.txt tùy chỉnh, chỉ cần đăng nhập vào hồ sơ
Blogger và chọn blog của bạn. Bây giờ, hãy truy cập trang tổng quan >> cài đặt
>> tùy chọn tìm kiếm và bạn có
thể thấy tệp robots.txt tùy chỉnh
trong phần thu thập thông tin và lập chỉ mục. Nhấp vào chỉnh sửa và bật nội
dung robots.txt tùy chỉnh và thêm tệp robots.txt của bạn.
Sau khi hoàn thành, hãy nhấp vào lưu thay đổi. Bây giờ để kiểm tra tệp
robots.txt của bạn, chỉ cần thêm /robots.txt vào cuối URL blog của bạn và bạn
có thể thấy tệp robots.txt tùy chỉnh của mình. Sau khi thêm tệp robots.txt tùy
chỉnh của bạn, bạn có thể gửi blog của mình đến các công cụ tìm kiếm. Tìm hiểu
cách gửi blog của bạn lên Google, Bing và Yahoo.
Một số câu hỏi và trả lời
liên quan đến tệp robots.txt:
Tôi nên dùng chương trình
nào để tạo tệp robots.txt?
Bạn có thể dùng bất kỳ chương trình gì có khả năng tạo một tệp văn bản hợp
lệ. Những chương trình thường được dùng để tạo tệp robots.txt là Notepad,
TextEdit, vi hoặc emacs. Đọc thêm về cách tạo tệp robots.txt. Sau khi tạo tệp,
hãy dùng Trình kiểm tra robots.txt để xác thực tệp đó.
Trang web của tôi có cần tệp
robots.txt không?
Không. Khi Googlebot truy cập một trang web, trước tiên chúng tôi yêu cầu
quyền thu thập dữ liệu bằng cách cố gắng truy xuất tệp robots.txt. Thường thì một
trang web không có tệp robots.txt, thẻ meta robots hay tiêu đề HTTP
X-Robots-Tag sẽ được thu thập dữ liệu và lập chỉ mục như bình thường.
Tôi nên không cho phép những
trang nào trong Blogger?
Câu hỏi này hơi phức tạp và chúng tôi không thể dự đoán những trang nào nên
cho phép và những gì không cho phép trong Blog của bạn. Bạn có thể không cho
phép các trang như chính sách bảo mật, Điều khoản & điều kiện, liên kết được
che giấu, nhãn cũng như kết quả tìm kiếm và tất cả phụ thuộc vào bạn. Vì bạn nhận
được một số lưu lượng truy cập hợp lý từ kết quả tìm kiếm, bạn không nên cho
phép trang nhãn, trang chính sách bảo mật ..
Cách không cho phép các
trang trong Blogger bằng robots.txt
Bạn có thể không cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ
mục các trang hoặc bài đăng cụ thể trong Blogger bằng cách sử dụng tệp
robots.txt của bạn.
Chúng tôi không có lý do gì để chặn công cụ tìm kiếm trên bất kỳ bài đăng cụ
thể nào và nếu bạn muốn vậy thì chỉ cần thêm Disallow: /năm/tháng/url-bai-viet-cua-ban.html
vào tệp robots.txt của bạn. Đó là sao chép URL bài đăng của bạn bên cạnh tên miền
của bạn và thêm nó vào tệp robots.txt của bạn.
Tương tự những gì bạn sẽ cần làm để không cho phép bất kỳ trang cụ thể nào.
Sao chép URL trang bên cạnh tên miền của bạn và thêm nó như thế này Disallow:
/p/your-page.html trong tệp robots.txt của bạn.
Tệp robots.txt tốt nhất và
được đề xuất cho Blogger
Chỉ sử dụng tệp robots.txt tùy chỉnh nếu bạn chắc chắn 100% về những gì bạn
đang làm. Việc sử dụng robots.txt tùy chỉnh không đúng cách có thể gây hại cho
thứ hạng trang web của bạn. Vì vậy, để có kết quả tốt nhất, bạn nên sử dụng tệp
robots.txt mặc định trong Blogger hoạt động tốt. Nhưng hãy thay đổi sơ đồ trang
web mặc định trong robots.txt của bạn và thêm sơ đồ trang web tùy chỉnh của bạn
cho Blogger.
Làm cách nào để tôi có thể
làm chậm quá trình thu thập dữ liệu của Google trên trang web của tôi?
Thường thì bạn có thể điều chỉnh chế độ cài đặt tốc độ thu thập dữ liệu
trong tài khoản Google Search Console của mình.
Tôi dùng cùng một tệp
robots.txt cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường
dẫn tương đối không?
Không. Các lệnh trong tệp robots.txt (ngoại trừ sitemap:) chỉ hợp lệ đối với
các đường dẫn tương đối.
Tôi có thể đặt tệp
robots.txt trong một thư mục con không?
Không. Tệp phải được đặt trong thư mục cấp cao nhất của trang web.
Tôi muốn chặn một thư mục
riêng tư. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?
Không. Tệp robots.txt cho phép nhiều người dùng đọc được. Nếu không muốn
công khai thư mục hoặc tên tệp chứa nội dung, thì bạn đừng đưa những nội dung
như vậy vào tệp robots.txt. Bạn không nên phân phát nhiều tệp robots.txt dựa
trên tác nhân người dùng hoặc các thuộc tính khác.
Tôi có phải đưa vào một lệnh
allow để cho phép thu thập dữ liệu không?
Không, bạn không cần đưa vào một lệnh allow. Tất cả URL đều được ngầm hiểu
là đã được cho phép và lệnh allow được dùng để ghi đè lệnh disallow trong cùng
một tệp robots.txt.
Tôi nên dùng phương thức nào
để chặn các trình thu thập dữ liệu?
Còn tùy. Nói ngắn gọn thì có những lý do chính đáng để sử dụng từng phương
thức sau:
robots.txt: Hãy dùng tệp này nếu việc thu thập dữ liệu nội dung đang gây ra
vấn đề trên máy chủ của bạn. Ví dụ: bạn nên chặn việc thu thập dữ liệu trên các
tập lệnh lịch vô hạn. Đừng dùng robots.txt để chặn nội dung riêng tư (mà hãy
dùng phương thức xác thực phía máy chủ) hoặc để xử lý quá trình chuẩn hóa . Để
đảm bảo Google không lập chỉ mục một URL, hãy chuyển sang dùng thẻ meta robots
hoặc tiêu đề HTTP X-Robots-Tag.
Thẻ meta robots: Hãy dùng thẻ này nếu bạn cần kiểm soát cách thức xuất hiện
của một trang HTML đơn lẻ trong kết quả tìm kiếm hoặc để đảm bảo trang này
không xuất hiện.
Tiêu đề HTTP X-Robots-Tag: Hãy dùng cách này nếu bạn cần kiểm soát cách thức
xuất hiện của nội dung trong kết quả tìm kiếm hoặc để đảm bảo nội dung này
không xuất hiện.
Tôi có thể dùng tệp robots.txt, thẻ meta robots hoặc tiêu đề HTTP
X-Robots-Tag để xoá trang web của người khác khỏi kết quả tìm kiếm không?
Không. Những phương thức này chỉ áp dụng được cho những trang web mà bạn có
thể sửa đổi mã hoặc thêm tệp. Hãy tìm hiểu thêm về cách xóa thông tin khỏi
Google.
Điều gì sẽ xảy ra nếu tệp
robots.txt của tôi chứa lỗi hoặc tôi dùng một lệnh không được hỗ trợ?
Các trình thu thập dữ liệu web nói chung rất linh hoạt và thường sẽ không bị
ảnh hưởng khi có những sai sót nhỏ trong tệp robots.txt. Nhìn chung, tình huống
xấu nhất có thể xảy ra là trình thu thập dữ liệu sẽ bỏ qua những lệnh không
chính xác/không được hỗ trợ. Tuy nhiên, hãy lưu ý rằng mặc dù Google không thể
đọc suy nghĩ của bạn khi diễn giải tệp robots.txt nhưng chúng tôi vẫn phải diễn
giải tệp robots.txt mà chúng tôi tìm nạp được. Dù vậy, nếu bạn biết có vấn đề
trong tệp robots.txt của mình thì việc khắc phục những vấn đề này thường khá dễ
dàng.
Nếu tôi dùng một lệnh
disallow trong tệp robots.txt để chặn Google thu thập dữ liệu trên một trang,
thì trang đó có biến mất khỏi kết quả tìm kiếm không?
Việc chặn Google thu thập dữ liệu trên một trang có thể khiến trang đó bị
xóa khỏi chỉ mục của Google.
Tuy nhiên, lệnh disallow trong tệp robots.txt không đảm bảo rằng một trang
sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định sự phù hợp của một
trang dựa trên những thông tin bên ngoài như các đường liên kết đến trang đó
và hiển thị URL đó trong kết quả. Nếu bạn muốn đảm bảo rằng Google không
lập chỉ mục một trang nào đó, hãy dùng thẻ meta robots noindex hoặc tiêu đề
HTTP X-Robots-Tag. Trong trường hợp này, đừng dùng lệnh disallow trong tệp
robots.txt đối với trang này do trang này phải được thu thập dữ liệu để Google
có thể nhìn thấy và tuân theo thẻ. Tìm hiểu cách kiểm soát nội dung bạn chia sẻ
với Google
Sẽ mất bao lâu để những thay
đổi trong tệp robots.txt của tôi tác động đến kết quả tìm kiếm?
Trước hết, bộ nhớ đệm của tệp robots.txt phải được làm mới (chúng tôi thường
lưu nội dung vào bộ nhớ đệm trong tối đa một ngày). Bạn có thể tăng tốc quá
trình này bằng cách gửi tệp robots.txt đã cập nhật cho Google. Ngay cả sau khi
tìm thấy nội dung thay đổi, việc thu thập dữ liệu và lập chỉ mục vẫn là một quá
trình phức tạp và đôi khi có thể tốn nhiều thời gian đối với các URL riêng lẻ.
Vì vậy, chúng tôi không thể đưa ra thời gian chính xác. Ngoài ra, hãy lưu ý rằng
ngay cả khi tệp robots.txt của bạn đang chặn quyền truy cập vào một URL nào đó,
URL đó có thể vẫn xuất hiện trong kết quả tìm kiếm dù chúng tôi không thể thu
thập dữ liệu. Nếu bạn muốn đẩy nhanh việc xóa những trang bạn đã chặn khỏi
Google, hãy gửi một yêu cầu xóa.
Kết luận: