スクレイピングプログラム
URLとタグを指定するだけでWordpressに記事投稿出スーパースクレイピングプログラム
何度も勉強会でPHPのスクレイピングネタを取り上げてきましたが、ついにWordPressを母体としたスーパースクレイピングプログラムを作りました。
管理画面付スクレイピングで、PHPの知識の無い人でも 楽しく(?)スクレイピング!
プログラムの基本的な機能
管理画面からURLと引き抜きたい部分のタグを指定すると、WordPressに記事の投稿が可能
さらにWordPressの記事本文意外にも引き抜きたい部分があれば、Wordpressのカスタムフィールドとして保存が可能
URLを個別に指定出来るので、複数サイトの自分だけのオリジナルまとめサイトの作成が可能
一覧があって、その先に詳細ページがある
という基本的な構造になっていればほとんどのサイトはスクレイピングすることが出来ます。
現在画像の自サーバーへの保存処理は対応していませんが、今後対応する予定です。
こんなサイトのスクレイピングとして最適
2ちゃんねるまとめサイト
ニュースサイトのまとめ
ニュースサイトのまとめ
動作環境
このスクレイピングのプログラムは保存先をWordPressにしているため、最低限WordPressがインストール可能なことが条件です。
PHP バージョン 5.2.4 以上
MySQL バージョン 5.0 以上
MySQL バージョン 5.0 以上
Mysqlのバージョンは5.0系で動作確認済みですが、PHPのバージョンは5.3以降しか確認していません。
もし5.2系のPHPで不具合発生などありましたら報告お願いします。
必要なもの
サーバーの動作環境以外に必要なものはこちらです。
Zipファイルには含まれていませんので各自ダウンロードして 自分のサーバーに設置して下さい。
重要:使用上の注意
動作上問題は無いのですが、WordPressの記事投稿を管理しているMysqlのテーブル構造も変更しているため、すでに運用されているWordPressサイトでは利用を控えることをオススメします。
安全のためにも、スクレイピングサイトはスクレイピングサイトとして運用するのがベターかと。
禁止事項と利用規約
・このプログラムの再配布は原則禁止です。
・このプログラムを利用して、発生した問題については作者は一切責任を負いません。(ブログのデータが飛んだとか、そんなの知らんよ、ってことです)
・スクレイピングをする際は著作権の侵害について十分注意して下さい。
・このプログラムを利用して、発生した問題については作者は一切責任を負いません。(ブログのデータが飛んだとか、そんなの知らんよ、ってことです)
・スクレイピングをする際は著作権の侵害について十分注意して下さい。
利用に関してはモラルを守り、著作権の侵害については十分注意して下さい。