menu

Làm các bộ máy tìm kiếm bỏ qua trang web của bạn

Đăng lúc 04/08/2017, trong chuyên mục Lập trình web

Bạn muốn tạo một trang web thử nghiệm các thay đổi trước khi publish lên trang web chính. Tuy nhiên nếu không nói Google/Bing biết thì nó sẽ vẫn hiển thị trang web thử nghiệm ra kết quả tìm kiếm.

Thêm thẻ meta

Nếu bạn muốn tất cả các bộ máy tìm kiếm đều bỏ qua trang web của bạn, hãy thêm vào thẻ <head> dòng code sau

<meta name="robots" content="noindex">

Còn nếu chỉ muốn một vài bộ máy tìm kiếm cụ thể nào đó, ví dụ Google thì dùng

<meta name="googlebot" content="noindex">

Yahoo thì dùng

<meta name="slurp" content="noindex">

MSN thì dùng

<meta name="msnbot" content="noindex">

Fix lỗi vẫn hiện trong kết quả tìm kiếm

Cách hay nhất vẫn là dùng thẻ meta ở trên, tuy nhiên nếu bạn thêm sau khi bộ máy tìm kiếm crawle trang web thì nó vẫn có thể xuất hiện trên bộ máy tìm kiếm. Những tùy chọn dưới đây sẽ hướng dẫn bạn block urls từ trang web hoặc toàn bộ trang web một cách thủ công từ bộ máy tìm kiếm Google và Bing.

Google

Trong một số trường hợp, trang web của bạn vẫn hiển thị trong kết quả tìm kiếm. Có hai lý do chính, tuy nhiên để có thể khắc phục, bạn cần tạo một property trong Google Search Console trước.

  1. Vào đây để tạo một property mới (thêm trang web mà bạn sở hữu và muốn loại khỏi kết quả tìm kiếm)
  2. Nhấn vào Add a property
  3. Điền địa chỉ đầy đủ trang web của bạn vào, ví dụ http://tencuaban.com, sau đó nhấn Continue
  4. Đến trang verify (xác nhận) chủ sở hữu. Có rất nhiều cách thức được liệt kê ra tại đây. Bạn cứ làm theo đúng hướng dẫn ở trang đó là được. Tôi chọn HTML tag (bạn sẽ thêm 1 tag vào thẻ <head> trên website của bạn)

Trong trường hợp phương pháp ở trên không tạo được property mới, bạn có thể thử trang này.

Thứ nhất, Google hoặc các trình tìm kiếm cần phải “crawl” trang web của bạn thì mới có thể nhận ra thẻ <meta> mà bạn đã thêm. Do đó, trong trường hợp sau khi thêm mà trang của bạn vẫn hiển thị trên kết quả tìm kiếm thì là do kể từ lúc bạn thêm, Google chưa crawl lại trang web của bạn. Do đó, bạn vào Google Search Console, sau đó chọn trang web mà bạn muốn loại bỏ kết quả tìm kiếm, chọn thẻ Crawl > Fetch as Google > nhấn vào Fetch.

Lý do thứ hai là vì file robots.txt chặn Google crawl trang web của bạn. Bạn cần chỉnh lại file này và cho phép Google crawl trang, bạn có thể kiểm tra file robots.txt đã ok chưa bằng cách vào Google Search Console, chọn trang web, chọn thẻ Crawl, chọn robots.txt Tester.

Bing

Với Bing của Microsoft, bạn có tùy chọn Bing Webmaster Tools. Tuy nhiên bạn cần một tài khoản Microsoft trước khi có thể vào đây tùy chỉnh.

  1. Vào Bing Webmaster Tools
  2. Chọn Add a site
  3. Điền địa chỉ trang web của bạn vào kèm theo đường link đến sitemap của trang. Trong trường hợp bạn muốn tạo một sitemap tự động cho trang web Jekyll, bạn có thể tham khảo bài viết này.
  4. Sau đó bạn cần xác nhận chủ sở hữu trang web bằng một số cách, tôi chọn thêm meta tag vào thẻ <head>. Xong bạn nhấn Verify.
  5. Vào lại trang Bing Webmaster Tools và chọn trang bạn cần chặn link
  6. Chọn tùy chọn Block URLs from Bing (xem hướng dẫn cụ thể tại đây)
  7. Nếu muốn block một URLs trên trang chứ không phải toàn bộ trang, bạn chọn Directory. Nếu muốn block toàn bộ trang, bạn chọn Page và điền vào địa chỉ trang web của bạn, ví dụ http://tencuaban.com.

Nếu có thắc mắc gì, bạn vui lòng comment bên dưới bài viết nhé, tôi sẽ giải đáp.

search engine
sitemap
jekyll
github pages
lập trình web
Top