?

誰搶走了低價機票

2018-05-30 12:04米沃奇
電腦知識與技術·經驗技巧 2018年1期
關鍵詞:訂票爬蟲低價

米沃奇

2018年春節假期即將來臨,出行需求隨之增大,不論你是旅游,還是回家,買票都是不可避免的一部分。其中,低價機票尤其受旅客青睞,但不少人都有這樣的苦惱:低價機票總是買不到,真的只是網速原因嗎?其實和你搶票的是網絡爬蟲。

據媒體報道,“機票代理”行業中,不少公司正利用爬蟲技術搶占航企官網放出的低價票,利用航企允許的賬期反復訂票、退訂,直至將票加價賣出,全程操作中爬蟲可替代95%的人工操作量。據業內人士估計80%以上的低價機票是被票務公司的爬蟲搶走的。

一、爬蟲為訂票網站產生90%虛假流量

什么是爬蟲?網絡爬蟲又被稱為網頁蜘蛛,是一種按照一定的規則,自動抓取萬維網信息的程序或者腳本。百度、搜狗等搜索引擎,依靠巨大的爬蟲集群每天抓取數百億網頁。

目前爬蟲被廣泛用于互聯網金融、電商、社交等領域;在機票領域,爬蟲可以抓取機票價格,發現超值機票后,爬蟲還可以模擬真人用戶搶先預訂。

攜程的反爬蟲專家在技術分享中舉例:某網站的一個頁面,每分鐘的瀏覽量是1.2萬,真實用戶只有500個,爬蟲流量比例是95.8%。業內人士表示,爬蟲所帶來的虛假流量占訂票網站總流量的50%,高峰期可達到90%以上。

二、利益鏈:低價機票去哪了?

爬蟲利用買來的身份信息或虛假客戶信息訂票,之后黃牛再將搶來的票高價賣出,黃金周、春節長假一張票甚至會加價1000元。

為了應對這種虛假搶票、占座的情況,有些航空公司不得不采取潛規則:每架飛機要多賣5%至10%的票,這被稱之為“超售”,這給真實用戶帶來了問題,有的用戶會因為“超售”嚴重無法登機。

三、”反爬蟲“之戰打響

網絡爬蟲被用來搶票,不僅侵犯了人們的權益、影響人們的日常出行,航空公司也將蒙受損失。就爬蟲生存時間的關鍵在于,在訪問網頁爬取數據的過程中,要盡量模擬真實用戶的行為,使服務端無法分辨是爬蟲還是用戶;如何進行“反爬蟲”? ISEC實驗室專家來支招:

1)根據訪問數量來“反爬蟲”。爬蟲的訪問總數遠高于人類,且訪問數量隨時間增長而表現出一定的線性增長規律,但大部分的真實用戶不會長時間持續訪問同一個網站;

2)在網站設置偽造的釣魚鏈接。正常情況下真實用戶不會訪問這些鏈接,-旦被訪問,則存在爬蟲的可能性就比較高;

3)進行IP地址的分析統計.絕大部分爬蟲為了長時間爬取數據,不會選擇在個人電腦上運行,一般放到云服務器或者VPS?!胺磁老x”可根據來訪的IP進行風險屬性的細分,對IP地址進行標記;例如對單個IP訪問設置一個閾值,如果在—定時間超過閾值,則進行封鎖或禁用。需要注意的是,該舉措容易誤傷真實用戶;

4)驗證碼校驗是反爬蟲的一個重要環節。爬蟲是按照預先設定好的流程,是無法變通的;而驗證碼需要基于人的主觀陛去判斷,如若在驗證過程中加入隨機陛,爬蟲繞過驗證的過程就相對復雜。行為驗證碼是當下流行的一種驗證碼,采用了多種圖像技術,能有效防止OCR的識別,防止暴力破解。如12306,就是采用點觸式行為驗證碼。

有效反擊“機票代理”公司的爬蟲戰術,除技術手段外,航空公司可從內部完善各項管理制度,勿給爬蟲留下可乘之機。此外,旅客盡可能選擇航空公司的官方網站購買飛機票,避免通過微信朋友圈等渠道購買低價票而上當受騙。網絡爬蟲技術在提供高效搜索的同時,也帶來了安全挑戰,相信在相關技術、法律制度的不斷發展完善下,在各相關職能部門的共同努力下,購票機制將日益完善、旅客的合法權益將得到更好的保障。

猜你喜歡
訂票爬蟲低價
基于Python的網絡爬蟲和反爬蟲技術研究
Python反爬蟲設計
大數據爬蟲風暴
基于Scrapy框架的分布式網絡爬蟲的研究與實現
工程量清單招標合理低價的確定方法
英君主航空:態度好可升艙
訂票姑娘
低價策略為何不適合J.C.Penney
稍安勿躁
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合