主题:【通报】2024年5月,关于最近网站不稳定的说明 -- 铁手
最近一段时间网站不稳定,大家明面上可以看到的是数据库,Web server 出现问题。
从各种迹象来看,有疑似有意无意的对网站服务器的攻击行为,也有可能是一些无意识/有意识的利用程序频繁访问网站所导致的服务器超载。
不管是什么情况,服务器的性能,有问题,面对大量访问,应对能力有问题。
我需要多花点时间,一是尽可能在系统配置、程序功能、数据库上做尽可能多的优化,让小马可以拉大车,二是尽可能优化配置不同的缓存功能,减少对后台服务器的要求,三是考虑合适的阻止大量、快速访问的方式。
目前网站使用 Cloudflare 作为内容提供前线。用户访问,先到 Couldflare,然后 Cloudflare 根据情况到我的服务器取内容。
我的两个重点,将会优化利用 Cloudflare 的缓存,再就是看看能不能利用它来防大量、快速的访问,特别是自制爬虫抓网页内容的。搜索引擎会遵守一定的原则,少量多次访问,而自制爬虫或恶意爬虫,多半会大量持续快速访问。
重申一下:以上说明,不为指责别人,重点是网站自己需要有防止超载的措施。或者说,别人做什么我们不知道,但是应该知道自己做什么。
以上的尝试解决过程中,可能会导致网站访问出现问题。比如内容过时、不完全正确,或者正常访问情况下被阻止访问等等。如果出现类似情况,或者是任何一种你认为不太正常的情况,欢迎或者跟帖说明,或者通过站内短信通知我。
以上,需要相当的时间和精力,需要学习了解新的东西。我不能保证什么时候能够完成,所以多半是走一步看一步,一天解决一点点。我不着急,所以,也希望大家别着急。
bot/crawler protection。铁老大你进管理dash去看看waf那块能不能直接创建规则。刚看了眼它的waf也不贵,20-25刀一月,入门那款,这个处理你描述的第三条应该够用。
以后不会再用
不过我的爬虫是单线程,4s访问一篇文章。这个流量不知道会不会对网站有影响。
另外,想询问下老大,现在河里发主帖,是不是需要审查认可后方能看到。主帖审核期间,在哪里可以看到帖子目前的状态?
除了技术手段,也可以采取一些管理、规劝的手段。广大的群众,多数应该是有一定廉耻的。从思路上,给出建议+违反建议后的技术惩罚,比你自己辛苦纯靠技术防范一切,要节约你的精力。
比如可以把使用爬虫列为不受欢迎行为,或者建议只在深夜某个时间段可以用。这样即使不能杜绝,也可以起到缓解的作用。或者指出如果用户使用爬虫,应该在爬虫中设置参数,至少每隔多少秒读取一次等等。我虽然不懂,但是猜测只要是程序,应该可以设置。
在国内访问,半个屏幕被一个广告栏遮盖。该广告还关不掉。有点影响浏览。
在IOS手机端才会出现广告栏,在电脑上没广告栏哈。
我在两三个月前为了求证一件事,写了一个简单的爬虫脚本。当时想着只查询index.html,不做展开,搜索的内容都是在cache里的,应该不会对服务器的负载有什么影响。现在看来还是不好的,下次不会了。
老铁辛苦了。
前一段在学写爬虫没学会,本想学会了先爬你,意淫也是罪啊,现在觉得学会了先爬别人,尖叫吧喔哈哈
我有时候觉得铁老大很恐怖,二十来年坚持一件事,这要用在泡妞上啧啧,起码可以拿下特朗普媳妇
刚发现好像没法元宝推荐,也是有什么门槛末?
问好!
意淫下爬特朗普媳妇也就算了,你还要爬铁手?
本想学会了先爬你,意淫也是罪啊,现在觉得学会了先爬别人,尖叫吧喔哈哈
比如
https://www.talkcc.org/article/4988330undefined
进不去
但是去掉undefined就可以
你还记得是在什么情况下出现的这个问题么?我猜测是在查看某个帖,帖内容在弹出窗口里出现时。
如果可能的话,请帮忙提供尽可能详细的信息,我好找到问题所在。目前而言,我找了所有可能的情况,还是没找到问题在哪里。