针对 virtualbox.org
页面自动化访问的礼仪规范
这很耗费时间,但 virtualbox.org
的网站管理员不得不花费越来越多的时间来抵御由恶意爬虫和脚本反复访问特定页面所导致的服务器过载。
- 请运用常识。
- 确保两次访问之间有足够的时间间隔。
- 请记住,您不是唯一一个进行自动化访问的人。
- 任何频繁的访问都可能因资源限制导致服务器过载。
- 请遵守
robots.txt
协议。 - 对抓取每个链接要特别小心。某些链接耗费资源较高,并且存在多种变体(如排序方式),这些变体并不会给您带来更多信息,但会倍增服务器负载。
- 在
vbox
仓库浏览器中获取每个文件的所有修订版本是没有意义的。这只会无用地将负载和流量使用量增加大约 100000 倍。
本列表将根据需要进行更新(尽管第 1 条已涵盖所有内容,其余部分也并非高深莫测)。
任何违规行为将导致根据用户代理、IP 段或我们认为适当的任何其他方式进行屏蔽。目前我们为此目的使用 HTTP 状态码 410 Gone
,但这可能会改变。
如果您认为自己被无故屏蔽(可能是因为同一 IP 段的其他人需要被屏蔽),您可以联系人工客服:tra
c@virt
ualbox
.org
。请解释您打算通过自动化访问做什么,以及为了有用需要多久进行一次。
注意: 查看 TracWiki 获取使用维基的帮助。