维基百科:数据库下载
此維基百科頁面需要更新。 (2018年8月12日) |
维基百科提供所有完整內容的電子檔案(称为“数据库转储文件”)給有興趣的使用者。這些資料可以被重複使用,當作鏡像站點,或是個人使用,或是資料備份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 4.0协议下发布,圖片以及其他檔案則可能以其他的許可證發佈,详情参见Wikipedia:版权信息
文章下载
[编辑]数据库转储文件,也可特指名为 *-pages-articles.xml.bz2 的文件,大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面(不包括讨论页和用户页)。这已经可以满足绝大多数需求了,如有特殊需求,请根据压缩文件的描述下载。
(※)注意,不同语言的条目内容不一定相同,欢迎您协助翻译不完善的条目或提出翻译请求。
- 中文版的下載處:https://download.wikipedia.com/zhwiki/
- 文言文版的下載處:https://download.wikipedia.com/zh_classicalwiki/
- 粤语版的下載處:https://download.wikipedia.com/zh_yuewiki/
- 吳語版的下載處:https://download.wikipedia.com/wuuwiki/
- 贛語版的下載處:https://download.wikipedia.com/ganwiki/
- 客家話版的下載處:https://download.wikipedia.com/hakwiki/
- 閩南語版的下載處:https://download.wikipedia.com/zh_min_nanwiki/
- 閩東語版的下載處:https://download.wikipedia.com/cdowiki/
- 英文版的下載處:https://download.wikipedia.com/enwiki/
- 更多語言的下載處見於ftpmirror
.your .org /pub /wikimedia /dumps /,其中多數語種均以ISO 639-1代碼區分。
圖片及其他檔案
[编辑]圖片(以及其他的檔案)的許可證不一定是以知识共享 署名-相同方式共享 3.0协议發佈,將維基百科上屬於合理使用的圖片或檔案使用在別的用途上可能是違法的。維基百科要求使用者在上傳圖片時必須標明版權資訊,這些資訊也可以在下載頁面取得。
總而言之,你如果要使用這些圖片及檔案,你必須自行判斷,並負起相關責任。
自2007年5月17日之后,維基百科不再開放這些圖片及檔案的BitTorrent(BT)下載。
檔案過大的問題
[编辑]由於維基百科的資料量龐大,在下載時可能會遇到一些問題:
- 下載軟體的限制
- 下載軟體可能會有單一檔案最大2GB或4GB的限制,如果遇到問題,可以試著用:
- Wget 1.10之後的版本
- cURL 7.11.1-1之後的版本
- axel
- 最新版的Lynx
- 最新版的Mozilla Firefox
- 檔案系統對單一檔案大小的限制
- 對於維基百科的檔案大小而言,一般比較容易遇到問題的是FAT:
- FAT16:單一檔案大小的限制是2GB。(在Windows ME及Windows NT可以支援到4GB)
- FAT32/VFAT:4GB。
除此之外,建議您使用MD5檢查下載的檔案是否有損毀。另外下载维基数据库时请尽量不要使用多线程下载工具以减轻维基服务器的负担。
壓縮文檔的解压缩
[编辑]電子檔案使用了bzip2或gz或7-zip压缩。解压方式如下:
- Microsoft Windows用户可以使用带有GUI的7-Zip解壓縮上述两种文件格式。如果需要命令行工具,可以安装cygwin,或者使用google搜索"windows cli bzip2"找解决方案。
- Mac OS X的使用者可以透過系統內的bzip2套件解壓縮。或安装p7-zip。
- GNU/Linux用户可直接在命令行下使用bzip2或gzip命令进行解压缩。或安装p7-zip。
要注意舊版的bzip2套件可能沒有辦法處理超過2GB的檔案。
处理转储文件
[编辑]数据库转储文件有xml格式的和sql格式的,sql可直接导入数据库。 xml格式需要解析后导入数据库。部分节点需要原样保留空格,请选择支持保留空格的xml解析器进行处理,以免丢失信息。
外部链接提供了一些已有的解析器实现以及wiki标记语言的格式说明,可以作为自制解析器的参考。 当然,中文帮助也是必不可少的。
关于建立维基镜像的操作,可以参考外部链接,或使用Google搜索了解详细步骤。
如果要取得运行维基百科的软件,请参见Wikipedia:MediaWiki。
您可以取得Mediawiki数据库的schema。数据库的布局请参考外部链接。
外部链接
[编辑]- (英文) en:Wikipedia:Wikipedia-CD/Download,維基百科的光碟資訊。
- (英文) mw:Alternative_parsers 已有的mediawiki解析器
- (英文) mw:Markup_spec mediawiki语法描述
- (英文) mw:Manual:Database_layout 数据库布局结构
- (英文) m:Data dumps
- (英文) m:Mirroring Wikimedia project XML dumps
- (英文) mw:Manual:Importing_XML_dumps 导入数据库转储文件