検索エンジンにウェブページの存在を知らせるためにXML形式のサイトマップを作るのは一般的ですが、サイトを更新するたびにサイトマップを手書きするのは大変です。
そこで PHP を使って sitemap.xml を作成するためのクラスを作ってみることにしました。
・sitemap_generator.php
<?php class SitemapGenerator{ private $sitemap; private $urlset = array(); function __construct(){ $this->sitemap = new DOMDocument('1.0', 'UTF-8'); $this->sitemap->preserveWhiteSpace = false; $this->sitemap->formatOutput = true; $this->urlset = $this->sitemap->appendChild( $this->sitemap->createElement("urlset") ); $this->urlset->setAttribute('xmlns', 'http://www.sitemaps.org/schemas/sitemap/0.9'); } function add($params){ $url = $this->urlset->appendChild( $this->sitemap->createElement('url') ); foreach($params as $key => $value){ if(strlen($value)){ $url->appendChild( $this->sitemap->createElement($key, $value) ); } } } function generate($file=null){ if( is_null($file) ) { header("Content-Type: text/xml; charset=utf-8"); echo $this->sitemap->saveXML(); } else { $this->sitemap->save( $file ); } } }
使用例
<?php include_once "sitemap_generator.php"; $sitemap = new SitemapGenerator(); $sitemap->add([ 'loc' => 'https://php-archive.net/', 'lastmod' => '2013-05-23', 'changefreq' => 'daily', 'priority' => '1.0' ]); $sitemap->add([ 'loc' => 'https://php-archive.net/category/php/', 'lastmod' => date('c'), 'changefreq' => 'monthly', 'priority' => '0.5' ]); $sitemap->generate();
・実行結果
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://php-archive.net/</loc> <lastmod>2013-05-23</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> <loc>https://php-archive.net/category/php/</loc> <lastmod>2013-05-23T09:01:58+02:00</lastmod> <changefreq>monthly</changefreq> <priority>0.5</priority> </url> </urlset>
ページごとの url 要素を配列として add() に渡すと追加されます。
generate() で XML として表示されます。
また、generate() の引数にファイルパスを渡せばファイルとして保存されます。
WordPress の記事を元にサイトマップを独自生成する方法 も公開しました。
興味のある方はそちらもご覧ください。
サイトマップの構造
サイトマップは個々のページの情報を記した複数の「url」要素と、それらを束ねる「urlset」要素でできています。
<urlset> <url> ~ </url> <url> ~ </url> <url> ~ </url> </urlset>
「url」要素内には、
・loc (ページのURL)
・lastmod (最終更新日)
・changefreq (更新頻度)
・priority (優先度)
などの要素があり、「loc」以外は必須ではありません。
更新日は「YYYY-MM-DD」で表すか、W3C Datetime 形式(ISO 8601)で表します。
PHP 5 以上であれば date(“c”) を使えば簡単に得られます。
更新頻度は次の値を使うことができます。
“always”, “hourly”, “daily”, “weekly”, “monthly”, “yearly”, “never”
「always」はアクセスする度に変化のあるページで、「never」は更新されることのないページです。
更新頻度はあくまで参考程度のものであり、ここで「hourly」を指定したからといって検索エンジンのクローラーが一時間おきにチェックしに来てくれるとは限りません。
「priority」は優先度に合わせて 0.0 ~ 1.0 の数値で指定します。
デフォルトは 0.5 で、優先度の高いものを大きな数値で表します。
これは相対的なものであり、全てのページに 1.0 を指定しても「全て同じ優先度」であることを意味するだけで、「1.0 = 重要なページ」であることを意味するわけではありません。
サイトマップ構造の詳細については下記URLを御覧下さい
http://www.sitemaps.org/ja/protocol.html
Similar Posts:
- [PHP]WordPress用のサイトマップを独自に動的生成
- PHP で XML を読み書きする (DOM)
- [PHP]HSV(HSB)色空間を比較して似た色合いの画像を検索する
- [CSS3]画像を用いずに表現できるデザインサンプル(スタイルシート使用例)
- [PHP]htmlspecialchars()を行った上でprintf()する
- [PHP]ページごとの訪問者数を調べるアクセスカウンター
- [PHP]file_get_contents()でWebページのステータスコードを取得する
- [PHP]3次スプライン曲線を使ったスプライン補間
$sitemap->add([
‘loc’ => ‘http://php-archive.net/category/php/’,
‘lastmod’ => date(‘c’),
‘changefreq’ => ‘monthly’,
‘priority’ => ‘0.5’
]);
ページ毎に上記配列を追加していくことはわかったのですが、
これを自動で追加するにはどのようにすれば良いでしょうか?
サイトの構造によって方法は様々ですが、データベース中心にを構築したサイトであればその情報を元にページ一覧が手に入ると思います。
静的ページが中心のサイトであればファイル一覧を取得(cf. http://php-archive.net/php/file-tree/)して .html や .php ファイルのみをサイトマップに追加することになると思います。
サイトマップの出力はページ作成時か cron を使って一定時間ごとに最新の情報になるように更新するのが一般的です。