网络爬虫的流程和原理
整个网络爬虫的流程可以分为如下的三个步骤:
整个爬虫的过程都可以使用 Python(本文使用 Python 3)来完成,每个步骤使用的模块大致如下:
- 获取网页:
requests、urllib、selenium(模拟浏览器) - 解析网页:
re正则表达式、BeautifulSoup、HTML 解析器lxml等 - 存储数据:存储至 txt、csv 等文件或是存储至 MySQL、MongoDB 等数据库
整个网络爬虫的流程可以分为如下的三个步骤:
整个爬虫的过程都可以使用 Python(本文使用 Python 3)来完成,每个步骤使用的模块大致如下:
requests、urllib、selenium(模拟浏览器)re正则表达式、BeautifulSoup、HTML 解析器lxml等
很明显,flag 就在 flag1.php 的 $flag 变量中。
观察发现 $flag 变量必须存在且非 NULL,而且用到了 strcmp() 字符串比较函数。而我输入的值显然不可能等于$flag的值,故只能想办法绕过 strcmp() 函数来达到显示 flag 的目的。