爬虫程序有很多种,以下是一些常见的爬虫程序及其对应的代码:
1. Python - 使用BeautifulSoup和requests库
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all('a'):
print(link.get('href'))
```
2. Python - 使用Scrapy框架
首先安装Scrapy:`pip install scrapy`
然后创建一个Scrapy项目:`scrapy startproject myproject`
接着,在`myproject/spiders`目录下创建一个名为`example_spider.py`的文件,内容如下:
```python
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
start_urls = ['https://www.example.com']
def parse(self, response):
for link in response.css('a::attr(href)').getall():
print(link)
```
最后,在项目目录下运行`scrapy crawl example`命令开始爬取。
3. Node.js - 使用Cheerio和axios库
首先安装Cheerio和axios:`npm install cheerio axios`
然后创建一个名为`app.js`的文件,内容如下:
```javascript
const axios = require('axios');
const cheerio = require('cheerio');
const url = 'https://www.example.com';
axios.get(url)
.then(response => {
const $ = cheerio.load(response.data);
$('a').each((index, element) => {
console.log($(element).attr('href'));
});
})
.catch(error => {
console.log(error);
});
```
运行`node app.js`开始爬取。
这些只是简单的爬虫示例,实际应用中爬虫可能需要处理更复杂的网页结构、登录验证、反爬策略等。