米沃奇
2018年春節假期即將來臨,出行需求隨之增大,不論你是旅游,還是回家,買票都是不可避免的一部分。其中,低價機票尤其受旅客青睞,但不少人都有這樣的苦惱:低價機票總是買不到,真的只是網速原因嗎?其實和你搶票的是網絡爬蟲。
據媒體報道,“機票代理”行業中,不少公司正利用爬蟲技術搶占航企官網放出的低價票,利用航企允許的賬期反復訂票、退訂,直至將票加價賣出,全程操作中爬蟲可替代95%的人工操作量。據業內人士估計80%以上的低價機票是被票務公司的爬蟲搶走的。
一、爬蟲為訂票網站產生90%虛假流量
什么是爬蟲?網絡爬蟲又被稱為網頁蜘蛛,是一種按照一定的規則,自動抓取萬維網信息的程序或者腳本。百度、搜狗等搜索引擎,依靠巨大的爬蟲集群每天抓取數百億網頁。
目前爬蟲被廣泛用于互聯網金融、電商、社交等領域;在機票領域,爬蟲可以抓取機票價格,發現超值機票后,爬蟲還可以模擬真人用戶搶先預訂。
攜程的反爬蟲專家在技術分享中舉例:某網站的一個頁面,每分鐘的瀏覽量是1.2萬,真實用戶只有500個,爬蟲流量比例是95.8%。業內人士表示,爬蟲所帶來的虛假流量占訂票網站總流量的50%,高峰期可達到90%以上。
二、利益鏈:低價機票去哪了?
爬蟲利用買來的身份信息或虛假客戶信息訂票,之后黃牛再將搶來的票高價賣出,黃金周、春節長假一張票甚至會加價1000元。
為了應對這種虛假搶票、占座的情況,有些航空公司不得不采取潛規則:每架飛機要多賣5%至10%的票,這被稱之為“超售”,這給真實用戶帶來了問題,有的用戶會因為“超售”嚴重無法登機。
三、”反爬蟲“之戰打響
網絡爬蟲被用來搶票,不僅侵犯了人們的權益、影響人們的日常出行,航空公司也將蒙受損失。就爬蟲生存時間的關鍵在于,在訪問網頁爬取數據的過程中,要盡量模擬真實用戶的行為,使服務端無法分辨是爬蟲還是用戶;如何進行“反爬蟲”? ISEC實驗室專家來支招:
1)根據訪問數量來“反爬蟲”。爬蟲的訪問總數遠高于人類,且訪問數量隨時間增長而表現出一定的線性增長規律,但大部分的真實用戶不會長時間持續訪問同一個網站;
2)在網站設置偽造的釣魚鏈接。正常情況下真實用戶不會訪問這些鏈接,-旦被訪問,則存在爬蟲的可能性就比較高;
3)進行IP地址的分析統計.絕大部分爬蟲為了長時間爬取數據,不會選擇在個人電腦上運行,一般放到云服務器或者VPS?!胺磁老x”可根據來訪的IP進行風險屬性的細分,對IP地址進行標記;例如對單個IP訪問設置一個閾值,如果在—定時間超過閾值,則進行封鎖或禁用。需要注意的是,該舉措容易誤傷真實用戶;
4)驗證碼校驗是反爬蟲的一個重要環節。爬蟲是按照預先設定好的流程,是無法變通的;而驗證碼需要基于人的主觀陛去判斷,如若在驗證過程中加入隨機陛,爬蟲繞過驗證的過程就相對復雜。行為驗證碼是當下流行的一種驗證碼,采用了多種圖像技術,能有效防止OCR的識別,防止暴力破解。如12306,就是采用點觸式行為驗證碼。
有效反擊“機票代理”公司的爬蟲戰術,除技術手段外,航空公司可從內部完善各項管理制度,勿給爬蟲留下可乘之機。此外,旅客盡可能選擇航空公司的官方網站購買飛機票,避免通過微信朋友圈等渠道購買低價票而上當受騙。網絡爬蟲技術在提供高效搜索的同時,也帶來了安全挑戰,相信在相關技術、法律制度的不斷發展完善下,在各相關職能部門的共同努力下,購票機制將日益完善、旅客的合法權益將得到更好的保障。