linux系统下如何部署selenium爬虫程序
发布时间:2022-10-05 16:41:17 所属栏目:Linux 来源:
导读: 随着互联网时代的到来,越来越多的企业热衷于通过大数据比对的方法获取一些有价值的行业信息,进而增加自己的企业竞争力。如何获取或者大面积收集有用的行业信息,是每一个数据公司都要考虑的事情。linux系统下部
|
随着互联网时代的到来,越来越多的企业热衷于通过大数据比对的方法获取一些有价值的行业信息,进而增加自己的企业竞争力。如何获取或者大面积收集有用的行业信息,是每一个数据公司都要考虑的事情。linux系统下部署selenium做网页爬虫,可以顶几十上百个人工采集数据。linux系统做爬虫方案也被越来越多的企业接受。 下面我就聊一聊怎么把selenium 爬虫程序部署到Linux 服务器上面 。 在这里插入图片描述 一、selenium是什么? Selenium其实就是一个用于Web应用程序测试的一个工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样, 数据抓取用它来爬取一些js动态加载的数据非常方便快捷。 二、具体使用步骤 1、引入库 代码如下 1 from selenium.webdriver import Chrome 2 from selenium.webdriver.chrome.service import Service 3 from selenium.webdriver.chrome.options import Options # 使用无头浏览器 4 from selenium.webdriver import ChromeOptions 5 chrome_options = Options() 6 options = ChromeOptions() 7 options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’]) # =>去掉浏览器正在受到自动测试软件的控制 8 options.add_experimental_option(‘useAutomationExtension’, False) 9 chrome_options.add_argument(“–headless”) # => 为Chrome配置无头模式 10 chrome_options.add_argument(‘–no-sandbox’) 11 chrome_options.add_argument(‘–disable-gpu’) 12 chrome_options.add_argument(‘–disable-dev-shm-usage’) 2、测试代码 代码如下: 1 s = Service(r"/home/driver/chromedriver") 2 driver = Chrome( 3 service=s, options=chrome_options 4 ) 5 driver.get(“百度一下linux浏览器,你就知道”) 6 print(diiver.title) 三、部署程序 1、安装chrome 命令如下: 1 yum install 2 检查chrome的版本 3 google-chrome --version 2、安装chromedriver驱动 命令如下: 1 按照对应的chrome版本下载chromedriver驱动 2 地址: 3 目前测试的版本号是: 96.0.4664.45 4 wget 5 yum install -y unzip zip 6 unzip chromedriver_linux64.zip # 解压zip文件 7 mkdir driver #新建文件夹用来存放驱动 8 chmod 777 driver/chromedriver # 这是权限 这里我分配的是 777 3、运行测试代码 新建test.py文件 1 vi test.py 在这里插入图片描述 保存 test.py run 一下看看 在这里插入图片描述 如上图结果就说明请求成功 上面就是关于在linux系统下部署selenium爬虫程序简单步骤,欢迎相互交流。 (编辑:航空爱好网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


