til
  • README
  • Software Development Roles
  • solid
  • README
    • service-worker
  • docker
    • arg
    • 更新docker版本
  • editor
    • vscode
    • Creating a VS Code Theme
  • english
    • words
  • front-end
    • ==
    • ECMAScript
    • IIFE
    • Label
    • basic
    • html.js.css渲染顺序
    • npm-vs-yarn
    • obj-delete-key-value
    • react
    • split-join-and-replace
    • video
    • 前端自检清单
    • 递归及去重
    • css
      • css换肤
      • flex
      • list
      • nth-child和nth-of-type区别
      • padding
      • position
      • 层叠上下文
      • 层叠样式(+)
      • 正方形
      • 语义化标签
    • dom
      • DOCTYPE
      • HEAD
      • 修改document
      • 自定义表单验证
    • electron
      • basic
    • es6
      • basic-type
      • basic
      • prototype-example
      • defineProperty
      • understanding-es6
        • 0.introduction
        • Appendix A: Smaller Changes
        • Appendix B: Understanding ES7
        • Block-Binding
        • Proxies&Reflection
        • class
        • 解构赋值
        • function
        • improved-array
        • iterators&generators
        • modules
        • object
        • promise
        • Map&Set
        • symbol
    • images
      • 前端角度看图片
    • interview_case
      • lexical_scope
      • redux和localstroage存储位置
    • javascript
      • fuck-the-js
      • js-engine-work
      • js原生操作dom
      • what-is-function-program
      • 执行上下文
      • articles
        • JavaScript中使用函数组合
        • JavaScript中的依赖注入
        • JavaScript作用域链中的标识符解析和闭包
        • JavaScript是何如工作的--概述
        • JavaScript深拷贝
        • JavaScript的全局变量是如何工作的
        • js继承常见的误解
        • node12&chrome中7个新的提案功能
        • 你真的懂JavaScript吗
      • date
        • index
      • engines
        • basic
        • JavaScript引擎基础:外形和内联缓存
        • v8中推测性优化的介绍
        • 优化原型
        • 更快的异步功能和promise
      • events
        • baisc
        • 事件冒泡和捕获
        • 定义事件
        • 页面生命周期
      • higher-order-function
        • curry
        • monad
      • module
        • basic
        • main&module
      • objects
        • iterator
        • spread
        • examples
          • iterator
      • performance
        • blocking-css
        • cache
      • prototype
        • Property-Descriptors
        • basic
        • prototype-shadow
      • you-dont-known-js
        • async&performance
          • Chapter 1: Asynchrony: Now & Later
          • Chapter 2: Callbacks
          • Chapter 3: Promises
          • Chapter 4: Generators
        • scope & closures
          • apA
          • apB
          • apC
          • apD
          • chapter1-what-is-scope
          • chapter2-lexical-scope
          • chapter3-function-vs-block-scope
          • chapter4-hoisting
          • chapter5-scope-closure
        • this & object prototypes
          • chapter1-this-or-that
          • chapter2-this-make-sense
          • chapter3-objects
          • chapter4-mixing(up)-class-object
          • chapter5-prototype
          • chapter6-behavior-delegation
        • types&grammer
          • Chapter1-Types
          • Chapter2-Values
          • Chapter3-Natives
          • Chapter4-coercion
          • Chapter5-grammer
        • up & going
          • chapter1-into-programming
          • chapter2-into-javascript
          • chapter3-into-YDKJS
    • mobile
      • iPhone分辨率终极指南
    • npm
      • arguments
      • build
    • react-native
      • prop-methods
    • react
      • PropTypes
      • basic
      • codebase-overview
      • component-element-instance
      • context
      • how-to-known-component-is-func-or-class
      • overview
      • react16.9
      • react18计划
      • react的设计原则
      • reconciliation
      • setState
      • useMemo
      • why-do-we-write-super-props
      • 从头实现一个react
      • concurrent
        • 引入并发模式(仅试验)
      • conf
        • conf-2019
      • events
        • 合成事件概述
      • hooks
        • custom-hook
        • effect-hook
        • hooks-api
        • intro
        • overview
        • rules
        • state-hook
        • hooks-vs-class
          • thinking-in-react-hooks
      • overreact
        • Development模式是如何工作的
        • How-Does-setState-Know-What-to-Do
        • Why-Do-React-Elements-Have-a-$$typeof-Property
        • Why-Do-React-Hooks-Rely-on-Call-Order
        • how-to-known-component-is-func-or-class
        • preparing-tach-talk-motivation
        • react作为ui运行
        • things-i-dont-known-as-2018
        • ui-element-problem-and-build-yourself
        • why-do-we-write-super-props
        • 一份完整的useEffect指南
        • 为什么X不是Hook
        • 函数组件与类有什么不同?
        • 演讲准备2-what-why-how
        • 编写弹性组件
        • 让setInterval在React-Hooks中为声明式
      • practice
        • render
      • react-dom
        • basic
      • react-redux
        • apiv7.1-hooks
        • connect
        • shallow-equal
      • redux
        • applyMiddleware
        • applyMiddleware2-细节
        • example
    • regex
      • index
    • stories
      • 数组下标
      • 阻止事件冒泡
    • svelte
      • compile-svelte-in-your-head-1
      • compiler-overview
      • parser
        • 写一个解析器-JavaScript的JSON解析器
    • turbopack
      • basic
    • typescript
      • interface和type的区别
    • webpack
      • hash
      • webpack4-for-react
      • webpack4
      • webpack4to5
      • babel
        • babel-parser和acorn的区别
        • babel.7.11
        • family
        • react16.14使用new-transform
        • update-to-7
    • pdf
      • deep-js
        • basic
      • react
        • reintroducing
  • git
    • capital
    • emoji
  • http
    • http2.0
    • response
  • rails
    • api
    • flash
    • middleware-vs-metal
    • model
    • performance
    • routes
    • environment
      • error
    • patterns
      • service
    • sidekiq
      • params
    • deploy
      • capistrano
        • ssh
  • ruby
    • self
    • net
      • http请求携带cookie
  • server
    • ss
    • ssh
    • user
    • crawler
      • puppeteer
    • nginx
      • domain-without-80
      • nginx节省带宽
  • sql
    • rails
    • search
Powered by GitBook
On this page
  1. server
  2. crawler

puppeteer

最近这几天在搞爬虫,差点被玩坏。

由于运营那边需要数据查询,给我excel表格,去网站查询对应的数据。

因为后端都忙,那就前端来处理吧(前端不忙吗?不,那是前端效率高。不是?那就是我的效率高)。

先去手动操作一番,好嘛,不需要登陆,爽歪歪啊。查询的数据是api接口形式,这就好了,都不用解析html了。

那就干吧。先上postman请求api接口。query参数直接encodeURI下去请求,不幸的是,不成功。嗯?看看页面的请求,好吧,加上Cookie头试试,嗯不错,可以了。

行吧,反正就是query encode下,请求携带Cookie下。Cookie咋搞呢?难道每次手动维护吗?这样不好吧。反正爬虫也不可能纯前端去解决了,那就用puppeteer吧。很棒,可以获取到。

npm i puppeteer -S
async function getCookie() {
    const browser = await puppeteer.launch({ 
        args: ['--no-sandbox', '--disable-dev-shm-usage'],
    });
    const page = await browser.newPage();
    await page.goto("https://xxxx.com/");    
    await sleep(2000)
    let co = await page.cookies();
    await browser.close();
    return co
}

async function setCookie() {
    const cookies = await getCookie()
    const cookie = cookies.reduce((cookie, item) => (cookie += `${item.name}=${item.value};`, cookie), '')
    return cookie
}
// index
const koaBody = require('koa-body');
app.use(koaBody({
  multipart: true,
  formidable: {
      maxFileSize: 200*1024*1024    // 设置上传文件大小最大限制,默认2M
  }
}));

// controllers/files 
// create action
const path = require('path');
var fs = require('fs');
const uuidv1 = require('uuid/v1');
async function create(ctx) {
    const {file} = ctx.request.files // file 是input name
    const {type} = ctx.request.body // 其他的参数
    saveFile({file})
}

async function saveFile(ctx){
  const uid = uuidv1()
  const basicPath = `../files/`
  const filesPath = buildFolder(basicPath)
  if (!fs.existsSync(filesPath)){
    fs.mkdirSync(filesPath);
  }
  const ext = file.name.split('.').pop()
  const reader = fs.createReadStream(file.path);
  const stream = fs.createWriteStream(path.resolve(__dirname, `${basicPath}/${uid}.${ext}`));
  reader.pipe(stream);
}

function buildFolder(url) {
  return path.resolve(__dirname, `${url}`)
}

这样就把文件保存下来,然后去异步的处理这个文件。读取文件(excel)是用库:

const XLSX = require('xlsx');
function readExcel(path){
    const workbox = XLSX.readFile(path)
    const sheetName = workbox.SheetNames[0]
    const object = XLSX.utils.sheet_to_json(workbox.Sheets[sheetName])
    return object
}

去对应的查询数据,然后生成xlsx数据:

async function generateXlsx({results, name, uid}) {
    var ws = XLSX.utils.json_to_sheet(results); // results就是生成的数据
    var wb = XLSX.utils.book_new();
    XLSX.utils.book_append_sheet(wb, ws, name); //name is sheet name
    buildFileFolder()
    XLSX.writeFile(wb, path.resolve(__dirname, `../files/build/${uid}.xlsx`));
}

其实上面这些都没啥。主要是部署之后的问题,文件上传了一直在等待查询,就是没有到更新文件(正在查询)的这一步。WTF?

一切都很好,嗯,没啥事了。第二天中午吃饭得时候,运营群里:“这个添加了验证码,那个爬虫还能用吗”。当时心里打鼓得,觉得肯定会有影响,但是以示安慰,还是认为只是页面加了验证。就说回去确定下。

中饭回来第一时间打开网站,果然加上了验证码,请求下试试,好家伙,果然,验证码有验证。看了下验证码得域名,xx.alicdn.com。第一想法,不好搞啊。那也得搞。

无头浏览器里找到元素,点击,嗯?报错。试了n次,都是报错。换成headless: false试试,好吧,有二级验证了,滑块,那就找到边界进行滑动,可以。

期间,要对navigator得webdriver进行设置。

其实这里主要说的就是成功了几次就会失败,改了点东西,可以了(如果你也是这样,可以在github首页得email联系在下)。

比较恶心得是,使用headless: true的情况是基本都失败。所以,在docker里要headless: false的方式去运行。

所以,下面出现了docker部署的情况

FROM node:10-slim
// ...
RUN apt-get update && \
    apt-get install -yq gconf-service libasound2 libatk1.0-0 libc6 libcairo2 libcups2 libdbus-1-3 \
    libexpat1 libfontconfig1 libgcc1 libgconf-2-4 libgdk-pixbuf2.0-0 libglib2.0-0 libgtk-3-0 libnspr4 \
    libpango-1.0-0 libpangocairo-1.0-0 libstdc++6 libx11-6 libx11-xcb1 libxcb1 libxcomposite1 \
    libxcursor1 libxdamage1 libxext6 libxfixes3 libxi6 libxrandr2 libxrender1 libxss1 libxtst6 \
    ca-certificates fonts-liberation libappindicator1 libnss3 lsb-release xdg-utils wget \
    xvfb x11vnc x11-xkb-utils xfonts-100dpi xfonts-75dpi xfonts-scalable xfonts-cyrillic x11-apps
// ....

爬虫,尽量让他在行为上表现的像一个人。

PreviouscrawlerNextnginx

Last updated 5 years ago

下面就是业务逻辑处理了,这里倒是没啥,mysql用的node的库,解析和生产excel用的是这个库,然后就是请求数据,不过这里(笔者所爬的网站)频率要有限制,不然会封IP。

formdata把数据传到后台,后台接收对应的文件,因为在下用的是koa2,解析formdata数据用到了:

看日志,是puppeteer启动失败。也有提示,参考这里,反正就是对docker的支持还存在一点问题。依赖得问题,所以把依赖装上。就好了。

好吧,定义user运行的这个方式呢,没有root权限,1024以下的端口都开启不了,这样就得配置nginx镜像,权限没有那么大,不方便折腾。不用user呢,必须在沙箱环境无头运行。最终采用的方案是。

mysql
xlsx
koa-body
troubleshooting
xvfb - X virtual framebuffer