「Wikipedia:データベースダウンロード」の版間の差分
過剰 タグ: 手動差し戻し モバイル編集 モバイルウェブ編集 |
KrisWalton (会話 | 投稿記録) m →入手方法 タグ: 2017年版ソースエディター |
||
(6人の利用者による、間の7版が非表示) | |||
1行目: | 1行目: | ||
{{ショートカット|WP:DD}} |
{{ショートカット|WP:DD|WP:DUMP|WP:DUMPS}} |
||
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化された'''データベース・ダンプでの提供'''が行われています。[[クローラ]]を用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 |
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化された'''データベース・ダンプでの提供'''が行われています。[[クローラ]]を用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 |
||
ウィキペディアのコンテンツは [[Wikipedia:Text of Creative Commons Attribution-ShareAlike |
ウィキペディアのコンテンツは [[Wikipedia:Text of Creative Commons Attribution-ShareAlike 4.0 International License|Creative Commons Attribution-ShareAlike 4.0 International License]] (CC BY-SA 4.0) および [[Wikipedia:Text of GNU Free Documentation License|GNU Free Documentation License]] (GFDL) の下にライセンスされています([[Wikipedia:著作権]]と[[wmf:利用規約|利用規約]]を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、[[Help:ファイルページ|ファイルページ]]で明記されています。 |
||
より詳しい解説は[[meta:Data dumps]]{{en icon}}を参照してください。 |
より詳しい解説は[[meta:Data dumps]]{{en icon}}を参照してください。 |
||
== 入手方法 == |
|||
;データベース・ダンプの提供場所 |
|||
*全プロジェクトのダンプ:{{URL|//dumps.wikimedia.org/}}および[[iarchive:wikimediadownloads|インターネットアーカイブ]] |
|||
* https://dumps.wikimedia.org/ (ptmpa) ウィキメディア財団による全プロジェクトのダンプ |
|||
*ウィキペディア日本語版のダンプは[[SQL]]のテーブル形式および[[Extensible Markup Language|XML]]のデータ形式で提供されます:{{URL|//dumps.wikimedia.org/jawiki/}}および[https://archive.org/search.php?query=subject%3A%22jawiki%22%20AND%20subject%3A%22data%20dumps%22%20AND%20collection%3A%22wikimediadownloads%22 インターネットアーカイブ] |
|||
* https://dumps.wikimedia.org/jawiki/ ウィキペディア日本語版のダンプ |
|||
**日付を選択した後、下記のファイルがダウンロードできます。 |
|||
⚫ | |||
⚫ | |||
**abstract.xml.gz - 各ページの要約(ページの最初の段落とリンクのみ)。 |
|||
⚫ | |||
**XML形式のほか、SQL形式のダンプもダウンロードできます。 |
|||
**全ページの履歴を含むダンプは[//dumps.wikimedia.org/jawiki/latest/ dumps.wikimedia.org/jawiki/latest/]において、名前に「pages-meta-history」が含まれる7zファイルをすべてダウンロードすることで入手できますが、解凍後は'''最新版のダンプより遥かに巨大'''なファイルになります。 |
|||
*特定のカテゴリに含まれるページ、もしくはいくつかのページをダウンロードする程度の場合は[[特別:データ書き出し]]が手軽に利用できます。詳しくは{{仮リンク|Help:データ書き出し|en|Help:Export}}を参照してください。 |
|||
*画像などのマルチメディアファイル:[[#メディアファイル]]を参照 |
|||
ウィキペディアは、主なソフトウェアとして[[MediaWiki]]に、データベースソフトウェアに[[MySQL]]で動作しています。 |
ウィキペディアは、主なソフトウェアとして[[MediaWiki]]に、データベースソフトウェアに[[MySQL]]で動作しています。文字エンコーディングは[[UTF-8]]です。 |
||
⚫ | |||
== 通常のページ == |
|||
メディアファイルのダンプは現在、ウィキメディアのサーバーからは直接提供されていませんが、[[m:Mirroring Wikimedia project XML dumps#Current mirrors|ダンプのミラーサイト]]の中にはメディアファイルのダンプを提供しているものもあります。メディアファイルのダンプを使用する場合、まず[[rsync]]を利用してミラーサイトからダンプをダウンロードします。ダンプにないファイルは{{URL|//upload.wikimedia.org}}からダウンロードして補完できますが、補完のときは下記の注意点があります。 |
|||
ウィキページのデータは、[[SQL]]のテーブル形式ではなく、[[Extensible Markup Language|XML]]のデータ形式で提供されます。文字エンコーディングは[[UTF-8]]です。 |
|||
*[[mw:API:Main page/ja|MediaWiki API]]でチェックサムを取得して、ダウンロードしたファイルを検証します。 |
|||
ファイルサイズが巨大なため、解凍したXMLを通常のエディタやブラウザで開かないようにご注意ください。 |
|||
*1秒内に生じるキャッシュミスを最大1回に限定します(レスポンスヘッダーからキャッシュミスを検出したら一時停止します)。 |
|||
⚫ | |||
*同時に3つ以上のHTTPコネクションを確立しないようにします。 |
|||
⚫ | |||
*[[ユーザーエージェント]]に連絡手段(メールアドレス)を記入して、ウィキメディアの運用チームからの連絡を受けられるようにします。 |
|||
⚫ | |||
*[[mw:API:Etiquette/ja|APIエチケット]]を守るようにします。 |
|||
* 全ページの全ての版のダンプを取得するためには、ファイル名が「pages-meta-history」で始まるすべての7zファイルをダウンロードしてください。 |
|||
メディアファイルはテキストと違い、GFDLおよびCC BY-SA 3.0のデュアルライセンスで提供されているとは限らず、フリーライセンスで提供されているもの、[[パブリックドメイン]]にあるもの、アメリカ合衆国における[[フェアユース]]で利用制限があるもの、著作権侵害で削除すべきものがあります。特にアメリカ合衆国におけるフェアユースの法理で使用しているものはウィキペディア以外での利用に制限があるものがほとんどです。フリーライセンスでもクレジット表示などの要件があるものがほとんどであり、いずれも詳細は[[Help:ファイルページ|ファイルページ]]([[#入手方法|テキストダンプ]]に含まれる)にあります。著作権侵害で削除すべきものは、あくまでも誰も気づいていないため除去されていないだけです。著作権侵害に気づいた場合は、[[Wikipedia:著作権侵害への対処#著作権侵害かもしれないページを見つけたら|私たちに知らせてください]]。 |
|||
これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。 |
|||
結論としては、テキストとメディアファイルのダンプ利用は自己責任で行ってください([[Wikipedia:免責事項#コンテンツの2次利用について]]と[https://dumps.wikimedia.org/legal.html dumps.wikimedia.orgのライセンスページ]も参照)。 |
|||
例: |
|||
$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php |
|||
== 要約 == |
|||
ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。 |
|||
* abstract.xml.gz |
|||
== 画像 == |
|||
:''現在、メディア・ファイルの提供は中止されています。'' |
|||
画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。 |
|||
⚫ | |||
== その他のテーブル == |
== その他のテーブル == |
||
52行目: | 50行目: | ||
== コンテンツの二次利用に関して == |
== コンテンツの二次利用に関して == |
||
ウィキペディア日本語版のテキストを再利用する際は、[[ |
ウィキペディア日本語版のテキストを再利用する際は、[[WP:CC-BY-SA|Creative Commons Attribution-ShareAlike 4.0 International License]] (CC BY-SA) の下で配布してください(詳しくは[[Wikipedia:著作権]]および[[wmf:利用規約|利用規約]]を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。 |
||
⚫ | |||
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて'''自己責任'''で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、[[Wikipedia:著作権を侵害している投稿について#著作権侵害かもしれないページを見つけたら|私たちに知らせてください]]。 |
|||
⚫ | |||
その他の諸注意に関して、[[Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用について]]や[https://dumps.wikimedia.org/legal.html Copyright and license (英語)]も参照してください。 |
|||
== クローラを使わない == |
== クローラを使わない == |
||
記事を大量にダウンロードするために[[クローラ]]を使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。 |
記事を大量にダウンロードするために[[クローラ]]を使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。 |
||
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、[[meta:System administrators/ja|システム管理者]]によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られ |
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、[[meta:System administrators/ja|システム管理者]]によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。 |
||
== |
== ダンプの使い方 == |
||
*XMLダンプをMySQLデータベースにインポートする方法については[[mw:Manual:Importing XML dumps/ja]]と[[m:Data dumps/ja]]を参照してください。 |
|||
* [[w:Wikipedia:Database download]] |
|||
*XMLダンプを利用して、オフラインでウィキペディアを閲覧できます。例として[[Kiwix]]、{{仮リンク|XOWA|en|XOWA}}があります。Kiwixの使い方は[https://gigazine.net/news/20221007-wikipedia-download/ GIGAZINEの記事]も参照してください。 |
|||
* [[meta:Data dumps]] |
|||
*XMLダンプをスクリプトで利用するにはまず[[構文解析]]が必要です。XMLダンプの構文解析ライブラリには下記のものがあります。 |
|||
* [[meta:Xml2sql|xml2sql]] - XMLファイルをデータベースに直接インポートできる形式へ変換するユーティリティプログラム。 |
|||
**[https://github.com/attardi/wikiextractor WikiExtractor.py] - [[Python]]のスクリプト |
|||
**[https://github.com/MartinRichards23/WikiDumpParser WikiDumpParser] - [[.NET|.NET Core]]のライブラリ |
|||
**[https://github.com/newca12/dictionary-builder Dictionary Builder] - [[Rust (プログラミング言語)|Rust]]のライブラリ |
|||
**[https://crates.io/crates/parse-mediawiki-sql/ parse-mediawiki-sql] - Rustのライブラリ |
|||
**[https://gitlab.com/tozd/go/mediawiki tozd/go/mediawiki] - [[Go (プログラミング言語)|Go]]のパッケージ |
|||
**[https://web.archive.org/web/20070907074625/http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep WikiPrep] - [[Perl]]のスクリプト |
|||
== 外部リンク == |
== 外部リンク == |
||
* {{URL|//dumps.wikimedia.org/}} |
|||
* [https://www.madobe.net/archiver/index.html 統合アーカイバプロジェクト] |
* [https://www.madobe.net/archiver/index.html 統合アーカイバプロジェクト] |
||
* [http://www.bzip.org/ bzip2 and libbzip2] - win32バイナリなど。 |
|||
* [https://sites.google.com/site/boookends/ Boookends] - Wikipedia の各国語版をEPWING形式で[[SourceForge]]を通じて配布。 |
|||
{{デフォルトソート:てたへすたうんろと}} |
{{デフォルトソート:てえたへえすたうんろおと}} |
||
[[Category:ウィキペディアのメンテナンス]] |
[[Category:ウィキペディアのメンテナンス]] |
2023年7月1日 (土) 05:34時点における最新版
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。
より詳しい解説はmeta:Data dumps を参照してください。
入手方法
[編集]- 全プロジェクトのダンプ:dumps
.wikimedia .orgおよびインターネットアーカイブ - ウィキペディア日本語版のダンプはSQLのテーブル形式およびXMLのデータ形式で提供されます:dumps
.wikimedia .org /jawiki /およびインターネットアーカイブ - 日付を選択した後、下記のファイルがダウンロードできます。
- pages-articles.xml.bz2 - 最新版のみ、かつノートページと利用者ページを除外したダンプ。2023年3月時点で解凍前約3.7 GB・解凍後約15.8 GB。
- pages-meta-current.xml.bz2 - 最新版のみ、かつノートページなども含むダンプ。
- abstract.xml.gz - 各ページの要約(ページの最初の段落とリンクのみ)。
- all-titles-in-ns0.gz - 記事名前空間のページ名一覧(リダイレクトページも含む)。
- XML形式のほか、SQL形式のダンプもダウンロードできます。
- 全ページの履歴を含むダンプはdumps.wikimedia.org/jawiki/latest/において、名前に「pages-meta-history」が含まれる7zファイルをすべてダウンロードすることで入手できますが、解凍後は最新版のダンプより遥かに巨大なファイルになります。
- 特定のカテゴリに含まれるページ、もしくはいくつかのページをダウンロードする程度の場合は特別:データ書き出しが手軽に利用できます。詳しくはHelp:データ書き出しを参照してください。
- 画像などのマルチメディアファイル:#メディアファイルを参照
ウィキペディアは、主なソフトウェアとしてMediaWikiに、データベースソフトウェアにMySQLで動作しています。文字エンコーディングはUTF-8です。
メディアファイル
[編集]メディアファイルのダンプは現在、ウィキメディアのサーバーからは直接提供されていませんが、ダンプのミラーサイトの中にはメディアファイルのダンプを提供しているものもあります。メディアファイルのダンプを使用する場合、まずrsyncを利用してミラーサイトからダンプをダウンロードします。ダンプにないファイルはupload
- MediaWiki APIでチェックサムを取得して、ダウンロードしたファイルを検証します。
- 1秒内に生じるキャッシュミスを最大1回に限定します(レスポンスヘッダーからキャッシュミスを検出したら一時停止します)。
- 同時に3つ以上のHTTPコネクションを確立しないようにします。
- ユーザーエージェントに連絡手段(メールアドレス)を記入して、ウィキメディアの運用チームからの連絡を受けられるようにします。
- APIエチケットを守るようにします。
メディアファイルはテキストと違い、GFDLおよびCC BY-SA 3.0のデュアルライセンスで提供されているとは限らず、フリーライセンスで提供されているもの、パブリックドメインにあるもの、アメリカ合衆国におけるフェアユースで利用制限があるもの、著作権侵害で削除すべきものがあります。特にアメリカ合衆国におけるフェアユースの法理で使用しているものはウィキペディア以外での利用に制限があるものがほとんどです。フリーライセンスでもクレジット表示などの要件があるものがほとんどであり、いずれも詳細はファイルページ(テキストダンプに含まれる)にあります。著作権侵害で削除すべきものは、あくまでも誰も気づいていないため除去されていないだけです。著作権侵害に気づいた場合は、私たちに知らせてください。
結論としては、テキストとメディアファイルのダンプ利用は自己責任で行ってください(Wikipedia:免責事項#コンテンツの2次利用についてとdumps.wikimedia.orgのライセンスページも参照)。
その他のテーブル
[編集]その他の補助テーブルは、MySQLダンプで提供されます。
- page.sql.gz
- user_groups.sql.gz
- logging.sql.gz
- interwiki.sql.gz
- langlinks.sql.gz
- externallinks.sql.gz
- templatelinks.sql.gz
- imagelinks.sql.gz
- categorylinks.sql.gz
- pagelinks.sql.gz
- oldimage.sql.gz
- image.sql.gz
- site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。
コンテンツの二次利用に関して
[編集]ウィキペディア日本語版のテキストを再利用する際は、Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA) の下で配布してください(詳しくはWikipedia:著作権および利用規約を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
メディアファイルのダンプにはCC BY-SA で利用可能でないものが含まれています。それぞれのファイルに関して、テキストのダンプに含まれている、ファイルページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。
クローラを使わない
[編集]記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。
ダンプの使い方
[編集]- XMLダンプをMySQLデータベースにインポートする方法についてはmw:Manual:Importing XML dumps/jaとm:Data dumps/jaを参照してください。
- XMLダンプを利用して、オフラインでウィキペディアを閲覧できます。例としてKiwix、XOWAがあります。Kiwixの使い方はGIGAZINEの記事も参照してください。
- XMLダンプをスクリプトで利用するにはまず構文解析が必要です。XMLダンプの構文解析ライブラリには下記のものがあります。
- WikiExtractor.py - Pythonのスクリプト
- WikiDumpParser - .NET Coreのライブラリ
- Dictionary Builder - Rustのライブラリ
- parse-mediawiki-sql - Rustのライブラリ
- tozd/go/mediawiki - Goのパッケージ
- WikiPrep - Perlのスクリプト