[PHP]サイトマップ(sitemap.xml)を動的に生成する

検索エンジンにウェブページの存在を知らせるためにXML形式のサイトマップを作るのは一般的ですが、サイトを更新するたびにサイトマップを手書きするのは大変です。

そこで PHP を使って sitemap.xml を作成するためのクラスを作ってみることにしました。

・sitemap_generator.php

<?php
class SitemapGenerator{
    private $sitemap;
    private $urlset = array();
     
    function __construct(){
        $this->sitemap = new DOMDocument('1.0', 'UTF-8');
        $this->sitemap->preserveWhiteSpace = false;
        $this->sitemap->formatOutput = true;
         
        $this->urlset = $this->sitemap->appendChild( $this->sitemap->createElement("urlset") );
        $this->urlset->setAttribute('xmlns', 'http://www.sitemaps.org/schemas/sitemap/0.9');
    }
     
    function add($params){
        $url = $this->urlset->appendChild( $this->sitemap->createElement('url') );
        foreach($params as $key => $value){
            if(strlen($value)){
                $url->appendChild( $this->sitemap->createElement($key, $value) );
            }
        }
    }
     
    function generate($file=null){
        if( is_null($file) ) {
            header("Content-Type: text/xml; charset=utf-8");
            echo $this->sitemap->saveXML();
        } else {
            $this->sitemap->save( $file );
        }
    }
}

使用例

<?php
include_once "sitemap_generator.php";

$sitemap = new SitemapGenerator();

$sitemap->add([
	'loc'        => 'https://php-archive.net/',
	'lastmod'    => '2013-05-23',
	'changefreq' => 'daily',
	'priority'   => '1.0'
]);

$sitemap->add([
	'loc'        => 'https://php-archive.net/category/php/',
	'lastmod'    => date('c'),
	'changefreq' => 'monthly',
	'priority'   => '0.5'
]);

$sitemap->generate();

・実行結果

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://php-archive.net/</loc>
    <lastmod>2013-05-23</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://php-archive.net/category/php/</loc>
    <lastmod>2013-05-23T09:01:58+02:00</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

ページごとの url 要素を配列として add() に渡すと追加されます。
generate() で XML として表示されます。
また、generate() の引数にファイルパスを渡せばファイルとして保存されます。

WordPress の記事を元にサイトマップを独自生成する方法 も公開しました。
興味のある方はそちらもご覧ください。


サイトマップの構造

サイトマップは個々のページの情報を記した複数の「url」要素と、それらを束ねる「urlset」要素でできています。

<urlset>
  <url> ~ </url>
  <url> ~ </url>
  <url> ~ </url>
</urlset>

「url」要素内には、
・loc (ページのURL)
・lastmod (最終更新日)
・changefreq (更新頻度)
・priority (優先度)
などの要素があり、「loc」以外は必須ではありません。

更新日は「YYYY-MM-DD」で表すか、W3C Datetime 形式(ISO 8601)で表します。
PHP 5 以上であれば date(“c”) を使えば簡単に得られます。

更新頻度は次の値を使うことができます。
“always”, “hourly”, “daily”, “weekly”, “monthly”, “yearly”, “never”

「always」はアクセスする度に変化のあるページで、「never」は更新されることのないページです。
更新頻度はあくまで参考程度のものであり、ここで「hourly」を指定したからといって検索エンジンのクローラーが一時間おきにチェックしに来てくれるとは限りません。

「priority」は優先度に合わせて 0.0 ~ 1.0 の数値で指定します。
デフォルトは 0.5 で、優先度の高いものを大きな数値で表します。
これは相対的なものであり、全てのページに 1.0 を指定しても「全て同じ優先度」であることを意味するだけで、「1.0 = 重要なページ」であることを意味するわけではありません。

サイトマップ構造の詳細については下記URLを御覧下さい
http://www.sitemaps.org/ja/protocol.html