「Wikipedia:データベースダウンロード」の版間の差分
→外部リンク: 外部リンクの修正 https://www.madobe.net/archiver/index.html |
Reiwa period (会話 | 投稿記録) →コンテンツの二次利用に関して: リンク修正です。 |
||
56行目: | 56行目: | ||
画像のダンプには '''CC-BY-SA で利用可能でないものが含まれています'''。それぞれの画像に関して、テキストのダンプに含まれている、[[Help:画像ページ|画像ページ]]でライセンス等の著作権情報を確認してください(詳しくは[[Wikipedia:アップロードされたファイルのライセンス]]を参照)。 |
画像のダンプには '''CC-BY-SA で利用可能でないものが含まれています'''。それぞれの画像に関して、テキストのダンプに含まれている、[[Help:画像ページ|画像ページ]]でライセンス等の著作権情報を確認してください(詳しくは[[Wikipedia:アップロードされたファイルのライセンス]]を参照)。 |
||
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて'''自己責任'''で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、[[Wikipedia:著作権を侵害している投稿について#著作権侵害を見つけた |
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて'''自己責任'''で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、[[Wikipedia:著作権を侵害している投稿について#著作権侵害かもしれないページを見つけたら|私たちに知らせてください]]。 |
||
その他の諸注意に関して、[[Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用について]]や[https://dumps.wikimedia.org/legal.html Copyright and license (英語)]も参照してください。 |
その他の諸注意に関して、[[Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用について]]や[https://dumps.wikimedia.org/legal.html Copyright and license (英語)]も参照してください。 |
2020年1月12日 (日) 10:20時点における版
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。
より詳しい解説はmeta:Data dumps を参照してください。
- データベース・ダンプの提供場所
- https://dumps.wikimedia.org/ (ptmpa) ウィキメディア財団による全プロジェクトのダンプ
- https://dumps.wikimedia.org/jawiki/ ウィキペディア日本語版のダンプ
ウィキペディアは、主なソフトウェアとしてMediaWikiに、データベースソフトウェアにMySQLで動作しています。
通常のページ
ウィキページのデータは、SQLのテーブル形式ではなく、XMLのデータ形式で提供されます。文字エンコーディングはUTF-8です。 ファイルサイズが巨大なため、解凍したXMLを通常のエディタやブラウザで開かないようにご注意ください。
- pages-articles.xml.bz2 : ノートページ、利用者ページを除く最新版のダンプ
- pages-meta-current.xml.bz2 : 全ページの最新版のダンプ
- all-titles-in-ns0.gz : 全項目のページ名一覧 (標準名前空間)
- 全ページの全ての版のダンプを取得するためには、ファイル名が「pages-meta-history」で始まるすべての7zファイルをダウンロードしてください。
これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。
例:
$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php
要約
ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。
- abstract.xml.gz
画像
- 現在、メディア・ファイルの提供は中止されています。
画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。
- upload.tar - 全メディア・ファイル
その他のテーブル
その他の補助テーブルは、MySQLダンプで提供されます。
- page.sql.gz
- user_groups.sql.gz
- logging.sql.gz
- interwiki.sql.gz
- langlinks.sql.gz
- externallinks.sql.gz
- templatelinks.sql.gz
- imagelinks.sql.gz
- categorylinks.sql.gz
- pagelinks.sql.gz
- oldimage.sql.gz
- image.sql.gz
- site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。
コンテンツの二次利用に関して
ウィキペディア日本語版のテキストを再利用する際は、Text of Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) の下で配布してください(詳しくはWikipedia:著作権および利用規約を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
画像のダンプには CC-BY-SA で利用可能でないものが含まれています。それぞれの画像に関して、テキストのダンプに含まれている、画像ページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて自己責任で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、私たちに知らせてください。
その他の諸注意に関して、Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用についてやCopyright and license (英語)も参照してください。
クローラを使わない
記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。またウィキメディア財団が法的措置を検討することもあります。
参考リンク
- w:Wikipedia:Database download
- meta:Data dumps
- xml2sql - XMLファイルをデータベースに直接インポートできる形式へ変換するユーティリティプログラム
外部リンク
- 統合アーカイバプロジェクト
- bzip2 and libbzip2 - win32バイナリ等
- Boookends - Wikipedia の各国語版をEPWING形式でSourceForgeを通じて配布。