网络爬虫的流程和原理
整个网络爬虫的流程可以分为如下的三个步骤:
整个爬虫的过程都可以使用 Python(本文使用 Python 3)来完成,每个步骤使用的模块大致如下:
- 获取网页:
requests
、urllib
、selenium
(模拟浏览器) - 解析网页:
re
正则表达式、BeautifulSoup
、HTML 解析器lxml
等 - 存储数据:存储至 txt、csv 等文件或是存储至 MySQL、MongoDB 等数据库
整个网络爬虫的流程可以分为如下的三个步骤:
整个爬虫的过程都可以使用 Python(本文使用 Python 3)来完成,每个步骤使用的模块大致如下:
requests
、urllib
、selenium
(模拟浏览器)re
正则表达式、BeautifulSoup
、HTML 解析器lxml
等
很明显,flag 就在 flag1.php
的 $flag
变量中。
观察发现 $flag
变量必须存在且非 NULL
,而且用到了 strcmp()
字符串比较函数。而我输入的值显然不可能等于$flag
的值,故只能想办法绕过 strcmp()
函数来达到显示 flag 的目的。