PHP 采集逐浪小说章节列表

距离上一次写采集教程已经是一年前了，而我已经实习快一个月了，不得不感叹时间过得真快，岁月催人老啊….

先品尝一下《PHP使用file_get_contents()函数实现采集网页》，食用更佳哦。

第一步，获取页面的html

首先，要获取该页面的html内容，随便打开一个小说章节目录的地址，例如 http://book.zhulang.com/427458/。可以使用 curl，也可以使用 file_get_contents() 函数，因为不用模拟请求头等操作，我就直接用第二种方式。

获取到 HTML 后要进行过滤，将一些换行符、空格进行过滤，使得 HTML 比较干净。

$content = file_get_contents('http://book.zhulang.com/427458/');
$content=str_replace("\n",'',$content);
$content=str_replace("\r",'',$content);
$content=str_replace("\r\n",'',$content);
$content=str_replace(" ",'',$content);

第二步，分析页面

拿到 HTML 内容后，使用 preg_match_all() 函数将章节目录的html块提取出来，缩小了匹配范围，也减少了出现错误数据的可能性。

preg_match_all('/<divclass=\"chapter-list\">(.*)<\/div>/', $content, $chapterHtml);
$chapterHtml = $chapterHtml[1][0];

preg_match_all() 函数第一个参数是正则表达式，第二个参数是需要匹配的内容，第三个参数是储存匹配结果的数组，$chapterHtml[0] 包含整个模式匹配的文本，$chapterHtml[1] 是包含第一个括号（正则表达式(http://book.zhulang.com/\d+/\d+.html)）中所匹配的文本，$chapterHtml[2] 就是第二个括号，以此类推。

第三步，提取数据

这一步就是观察章节地址的格式，举个例子：

http://book.zhulang.com/427458/152725.html

格式：

http://book.zhulang.com/数字/数字.html

然后编写正则表达式：

/(http:\/\/book\.zhulang\.com\/\d+\/\d+\.html)/

这样章节地址就出来了，然后编写匹配标题的表达式：

/\"title=\"[\W|\d]+\">(.*?)<\/a>

最后合在一起，并打印：

preg_match_all('/(http:\/\/book\.zhulang\.com\/\d+\/\d+\.html)\"title=\"[\W|\d]+\">(.*?)<\/a>/', $chapterHtml, $result);
var_dump($result);

得到如下结果：

array (size=3)
  0 => 
    array (size=72)
      0 => string 'http://book.zhulang.com/427458/46802.html"title="第一章捕鱼2017-06-3014:47">第一章捕鱼</a>' (length=100)
      1 => string 'http://book.zhulang.com/427458/46803.html"title="第二章神女梦2017-06-3014:48">第二章神女梦</a>' (length=106)
      2 => string 'http://book.zhulang.com/427458/46805.html"title="第三章绿液2017-06-3014:48">第三章绿液</a>' (length=100)
      3 => string 'http://book.zhulang.com/427458/46807.html"title="第四章卖参2017-06-3014:49">第四章卖参</a>' (length=100)
      ......
  1 => 
    array (size=72)
      0 => string '46802' (length=5)
      1 => string '46803' (length=5)
      2 => string '46805' (length=5)
      3 => string '46807' (length=5)
       ......
  2 => 
    array (size=72)
      0 => string '第一章捕鱼' (length=15)
      1 => string '第二章神女梦' (length=18)
      2 => string '第三章绿液' (length=15)
      3 => string '第四章卖参' (length=15)
      ......

还是跟上面一样，$result[0] 是包含整个模式匹配的文本，$result[1] 就是第一个括号（(http://book.zhulang.com/\d+/\d+.html)）匹配出来的章节地址的数组，$result[1] 就是第二个括号（(.*?)）匹配出来的章节标题的数组。完整代码：

$content = file_get_contents('http://book.zhulang.com/427458/');
$content=str_replace("\n",'',$content);
$content=str_replace("\r",'',$content);
$content=str_replace("\r\n",'',$content);
$content=str_replace(" ",'',$content);
preg_match_all('/<divclass=\"chapter-list\">(.*)<\/div>/', $content, $chapterHtml);
$chapterHtml = $chapterHtml[1][0];
preg_match_all('/(http:\/\/book\.zhulang\.com\/\d+\/\d+\.html)\"title=\"[\W|\d]+\">(.*?)<\/a>/', $chapterHtml, $result);
for ($i = 0; $i < count($result[0]); $i++)
{
    echo '标题：' . $result[2][$i] . ' ---- URL地址：' . $result[1][$i] . '<br>';
}

写在最后

这里只讲了如何获取章节地址及标题，小说列表、小说正文的采集的方法其实都差不多，主要还是观察 div 结构，然后再编写正则表达式。

这是一篇过去很久的文章，其中的信息可能已经有所发展或是发生改变。

第一步，获取页面的html#

第二步，分析页面#

第三步，提取数据#

写在最后#

第一步，获取页面的html

第二步，分析页面

第三步，提取数据

写在最后