列出访问量超过1000的Wikimedia项目(wikipedia)中访问量最高的页面

我已经看到有各种API和各种工具可让您查看Wikipedia等Wikimedia项目中访问量最大的页面,但是所有这些服务都有一定的限制,它们不能显示超过1000个页面,而我希望按访问量列出5000-10000(或更多)访问量最大的页面。

这些是我检查过的所有服务,我发现了这些限制:

https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bmostviewed

https://stats.wikimedia.org/#/en.wikipedia.org/reading/top-viewed-articles/normal|table|last-month|~total|monthly

https://pageviews.toolforge.org/topviews/?project=en.wikipedia.org&platform=all-access&date=last-month&excludes=

https://wikimedia.org/api/rest_v1/#/Pageviews%20data

我还发现了https://quarry.wmflabs.org/https://query.wikidata.org/,在技术上也许可以通过此服务运行查询,但我不知道要执行该查询以显示访问量最大的页面。

我还在这里找到了一篇有趣的文章:https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/,其中解释说可以使用Google的BigQuery,但这是一项外部服务,在使用它之前,我想知道它是否存在更简单的方法。 / p>

iCMS 回答:列出访问量超过1000的Wikimedia项目(wikipedia)中访问量最高的页面

如果REST API不适合您的目的,则需要自己解析原始数据。那是因为您链接的所有工具都只使用REST API。

原始数据位于https://dumps.wikimedia.org/other/pageviews/。那里有两组文件。一个以pageviews-开头,列出单个页面的视图数,第二个以projectviews-开头,列出单个项目的视图数。

对于您的目标,您需要浏览量。下载所需时间的文件,然后使用脚本进行分析。

文件以空格分隔。每行代表该小时内访问过的一页。第一列代表项目(例如,英语是Wikipedia),第二列是页面标题(空格由下划线表示),然后是总浏览量。

技术文档位于https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews

本文链接:https://www.f2er.com/2028820.html

大家都在问