跳转到内容

MediaWiki talk:Robots.txt

页面内容不支持其他语言。
维基百科,自由的百科全书

关于robots.txt[编辑]

Google前几日刚刚发布了新的robots.txt规范:[1], [2], [3],各位看看我们的mediawiki:robots.txt有没有需要优化的地方?--百無一用是書生 () 2010年11月30日 (二) 14:18 (UTC)[回复]

站内隐私保护[编辑]

出于保护维基人隐私的考虑,我建议将WP:聚会WP:即时联系维基人等页面加入Mediawiki:Robots.txt的搜索引擎屏蔽项目中(__NOINDEX__不能对子页面起作用)。现寻求大家的意见,或请提出其他不宜对搜索引擎公开的页面。--Kegns 2012年12月13日 (四) 12:09 (UTC)[回复]

自願公開資料的.......像我的FACEBOOK+新浪微博都是不在維基公開的......但在我們的鐵道迷網站也是不公開FB(其實也說過....不過因維護網站安全而刪了...因為這是個天津的車迷網).....但是公開微薄......像我基本上從來都沒有把自己的照片放到網路上.....只不過有十餘張被不小心拍到還上過報紙.......但我從來也沒跟其他人說過........回正題.....過多的個人資料就不要放到網路上來......像聚會一般應該是以帳號區分維基人的.....所以也只牽扯到帳號使用者容貌的問題......但最後強調......自願放上來就不要埋怨隱私問題.......在網路上...除非你是很有名的人士.....不然不要把你的照片+姓名放上網路......不然後果就是自己負責.......ltdccba--Jason--Lin2012年12月13日 (四) 14:24 (UTC)[回复]
(+)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)[回复]

将"Special:用户贡献"的子页面加入到robots.txt[编辑]

请求将Special:用户贡献的子页面加入到robots.txt中。因为我发现虽然那些页面上有meta robots noindex,但是百度蜘蛛不支持noindex,所以用百度搜索“的用户贡献”,有70多页的相关结果,但是Google搜索没有任何相关结果。所以我想能不能在MediaWiki:Robots.txt中加入以下内容:

Disallow: /*/Special:用户贡献/*
Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*

谢谢!--Chmarkine留言2014年2月22日 (六) 23:32 (UTC)[回复]

像是百度的bug吧而不是完全“不支持noindex”,不然怎么可能“只有”70多页。随便一搜找到[4],有人说robots.txt有时也没用……Liangent留言 2014年2月23日 (日) 06:33 (UTC)[回复]
好吧。--Chmarkine留言2014年2月24日 (一) 04:05 (UTC)[回复]
又有新发现:看起来所有特殊页面都含有meta robots noindex,nofollow,但是百度搜索inurl:Special可以看到不少结果,其中多数是Special:用户贡献Special:链出更改Special:网络书源,而且竟然第一页就有这个,另外这些:从第34页往后有异常多的垃圾链接。所以我还是觉得不管百度支不支持noindex,还是加上robots阻止比较好,我估计百度不敢明目张胆地忽略robots.txt,而且要阻止就把所有Special:开头的链接全阻止掉。大家觉得怎样?--Chmarkine留言2014年2月24日 (一) 08:16 (UTC)[回复]
很可惜,已经有人提及baidu的蜘蛛不一定遵守robots规范,或者可能蜘蛛robots规范实现有问题的。——路过围观的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)[回复]
曾经想过能否在解析层上开发一种插件,能根据用户信息(如UA,访问IP,用户名等)和访问的内容(特定页面或其子页面,分类等)进行控制(主要阻止访问,如服务器跳转到白页,或直接404之类),这样就可以避免robots.txt或robot meta阻止实现的情况。但好像mw的解析hook上没有readpage的hook……——路过围观的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)[回复]
既然是不一定,那为什么不试试呢?确实根据UA提供不同内容是个更好的办法,但不知能否实现。--Chmarkine留言2014年2月24日 (一) 08:44 (UTC)[回复]

阻止搜尋引擎收錄所有Special頁面[编辑]

请求已处理

加入: Disallow: /*/Special:*

這是我在百度搜尋到的(「世爵平台」利用漏洞刷出來的廣告,當然不只這一條)。百度蜘蛛爬蟲的英文名為baiduspider。-- By LNDDYL.(留言2014年12月2日 (二) 00:19 (UTC)[回复]

編輯請求 2020-07-05[编辑]

请求已处理--Xiplus#Talk 2020年7月12日 (日) 03:36 (UTC)[回复]

请删除所有三个Sitemap,sitemap.wikimedia.org已经淘汰/退役(详见T101486),且Google不会在维基媒体项目中读取Sitemap(详见T198965)--VulpesVulpes825留言2020年7月5日 (日) 07:58 (UTC)[回复]

編輯請求 2020-10-12[编辑]

请求已处理

修復錯誤-- Sunny00217  2020年10月12日 (一) 01:46 (UTC)[回复]

完成--百無一用是書生 () 2020年10月13日 (二) 06:10 (UTC)[回复]

編輯請求 2022-10-01[编辑]

请求已处理

加入

Disallow: /*/*action=*

per [5]--SunAfterRain 2022年10月1日 (六) 07:05 (UTC)[回复]

 已修复--百無一用是書生 () 2022年10月8日 (六) 11:36 (UTC)[回复]