PGA巡回赛更新了他们的网站(截至2023年2月7日),彻底打破了我收集数据的方式。它曾经有一个“隐藏”的URL,您可以通过查看开发者工具中的“网络”选项卡来发现它。然后我可以使用Python中的“隐藏”URL和请求来拉取数据表。
有关它过去如何工作的背景信息,请参阅我前面这篇文章的回应:当Python requests.get从网站上收到浏览器错误时该怎么办?。
现在似乎所有的数据都被屏蔽了,无法像以前一样通过URL访问。我希望有一个更精通网络抓取技巧的人能给我指出正确的方向,让我做之前的链接所做的事情:
- 对于任何比赛,都可以从任何年份/赛季中提取比赛历史。(新站点示例:https://www.pgatour.com/tournaments/2023/fortinet-championship/R2023464/past-results)
- 对于任何统计数据,都可以提取任何年份/季节的统计数据。(新站点示例:https://www.pgatour.com/stats/detail/02674)