如何通过MediaWiki API获取所有Wikipedia内容页面的页面ID和标题?

Wikipedia Statistics

上面的链接显示,英语维基百科的内容页面有近600万。如何使用MediaWiki API获取所有内容页面的页面ID和标题?

params = {
    'action': 'query','list': 'allpages','gapfilterredir': 'nonredirects','apnamespace': 0,'aplimit': 500,'format': 'json'
}

我尝试了这种API格式,尽管我将'gapfilterredir'设置为'nonredirects',但仍然有一些重定向页面,并且被抓取的项目远远超过600万。

iCMS 回答:如何通过MediaWiki API获取所有Wikipedia内容页面的页面ID和标题?

最好通过dumps,但是,如果您真的想使用API​​,那么所显示的是正确的方法。统计信息排除了某些非常短的页面(如果我没有记错的话,这些页面没有内部链接或句点),这就是数字不同的原因。

本文链接:https://www.f2er.com/1843937.html

大家都在问