Wikipedia:データベースダウンロード
ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) および GNU Free Documentation License (GFDL) の下にライセンスされており(Wikipedia:著作権および利用規約を参照)、再配布や再利用のためにデータベース・データの提供が行われています。データの生成は不定期に行われています。より詳しい解説はmeta:Data dumps(英語)を参照してください。
- ウィキメディア財団による全プロジェクトのデータベース・ダンプ
- ウィキペディア日本語版: http://download.wikimedia.org/jawiki/
- MediaWikiソフトウェア: http://www.mediawiki.org/
- データベースソフトウェア: MySQL
通常のページ
ウィキページのデータはSQLのテーブルではなく、XMLで提供されます。XMLファイルの文字エンコーディングはUTF-8です。 非常にファイルサイズが大きいため、通常のエディタやブラウザで、解凍したXMLを開かないようにご注意ください。
- pages-articles.xml.bz2 - ノートページ、利用者ページを除く最新版のダンプ
- pages-meta-current.xml.bz2 - 全ページの最新版のダンプ
- pages-meta-history.xml.7z - 全ページの全ての版のダンプ
- all-titles-in-ns0.gz - 全項目のページ名一覧 (標準名前空間)
これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。
例:
$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php
要約
ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。
- abstract.xml.gz
画像
画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。
- upload.tar - 全メディア・ファイル
現在、メディア・ファイルの提供は中止されています。
その他のテーブル
その他の補助テーブルは、MySQLダンプで提供されます。
- page.sql.gz
- user_groups.sql.gz
- logging.sql.gz
- interwiki.sql.gz
- langlinks.sql.gz
- externallinks.sql.gz
- templatelinks.sql.gz
- imagelinks.sql.gz
- categorylinks.sql.gz
- pagelinks.sql.gz
- oldimage.sql.gz
- image.sql.gz
- site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。
コンテンツの二次利用に関して
ウィキペディア日本語版のテキストを再利用する際は、Text of Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) の下で配布してください(詳しくはWikipedia:著作権および利用規約を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
画像のダンプには CC-BY-SA で利用可能でないものが含まれています。それぞれの画像に関して、テキストのダンプに含まれている、画像ページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて自己責任で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、私たちに知らせてください。
その他の諸注意に関して、Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用についてやCopyright and license (英語)も参照してください。
クローラを使わない
記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。またウィキメディア財団が法的措置を検討することもあります。
参考リンク
- meta:Data dumps
- xml2sql - XMLファイルをデータベースに直接インポートできる形式へ変換するユーティリティプログラム
外部リンク
- 統合アーカイバプロジェクト
- bzip2 and libbzip2 - win32バイナリ等
- ceena.net - ウィキペディア日本語版のダンプデータをEPWING形式に変換してtorrent配布。
- Boookends - Wikipedia の各国語版をEPWING形式でSourceForgeを通じて配布。