import requests
from lxml import etree
import openpyxl
import os
# 获取桌面路径
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")
file_path = os.path.join(desktop_path, "图片链接.xlsx")
# 创建Excel文件
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet['A1'] = '图片链接'
sheet['B1'] = 'URL链接'
sheet['C1'] = '产品信息'
sheet['D1'] = '标题'
url_list = ['url1'] # 替换为你想要采集的url列表
row = 2 # 从第二行开始写入数据
for url in url_list:
try:
response = requests.get(url)
html = etree.HTML(response.text)
for i in range(1, 51):
xpath = f'//*[@id="product_list"]/li[{i}]/a/img'
image_url = html.xpath(xpath)[0].get('src')
sheet.cell(row=row, column=1).value = image_url
xpath = f'//*[@id="product_list"]/li[{i}]/span/a'
product_info = html.xpath(xpath)[0].text.strip()
sheet.cell(row=row, column=3).value = product_info
xpath = f'//*[@id="product_list"]/li[{i}]/span/a'
title = html.xpath(xpath)[0].get('title')
sheet.cell(row=row, column=4).value = title
sheet.cell(row=row, column=2).value = url
row += 1
except Exception as e:
sheet.cell(row=row, column=2).value = f'Error: {str(e)}'
row += 1
continue
# 保存Excel文件
workbook.save(file_path)
# 提示采集完成
print('图片链接采集完成!')
重要的事情说三遍!!!
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
这是网站预览,如果预览不正常,有可能需要外网才能访问,或网站已经不存在,或对方服务器拒绝预览访问。
(网址均来源于网络,如有侵权,请联系删除)
1. 链接直达将跳转网址:
2. 网址收录时间:2023-10-06 17:07:30
3. 这是第“31”个收录网址。
如对此链接有任何疑问,可以添加以上微信,或此链接底部留言。看到会马上回复。
QaQlinks 跨境电商导航网站 声明:网站上的服务均为第三方提供,与 QAQlinks 网站无关。请用户注意甄别第三方服务质量,避免上当受骗。
(文章来源于网络,如有侵权,请联系删除)
批量检查Url链接的title信息, 用于检查链接是否有效,还是404页面。