亚洲色成人网站www永久,亚洲欧美人成视频一区在线,亚洲国产成人高清在线观看,亚洲精品久久久久久动漫,亚洲国产精品久久电影欧美

< 返回ForeSpider介紹頁
ForeSpider數(shù)據(jù)采集引擎功能列表
數(shù)據(jù)采集范圍
功能分類功能點詳細介紹
支持的網(wǎng)站結(jié)構(gòu)支持Ajax技術(shù)可采集Ajax網(wǎng)頁的內(nèi)容
采集基于js頁面的數(shù)據(jù)可采集基于js頁面的內(nèi)容
采集post請求數(shù)據(jù)可采集post請求中的內(nèi)容
采集get請求數(shù)據(jù)可采集get請求中的內(nèi)容
采集需要cookie的網(wǎng)站可采集需要cookie的網(wǎng)站
自動解析JS啟用JavaScrIPt功能即可自動解析頁面JS
網(wǎng)頁源碼智能解碼設(shè)置網(wǎng)頁編碼,即可自動解碼
OAuth認證采集OAuth認證的網(wǎng)站
采集境外網(wǎng)站可采集境外網(wǎng)站
采集本地文件可采集本地文件內(nèi)容
采集內(nèi)網(wǎng)網(wǎng)站可采集內(nèi)網(wǎng)網(wǎng)站
采集APP軟件數(shù)據(jù)可采集各類APP軟件的數(shù)據(jù)
登錄采集可采集需要登錄的網(wǎng)站
關(guān)鍵詞采集可采集關(guān)鍵詞搜索出來的內(nèi)容
瀑布流翻頁采集可采集瀑布流翻頁的網(wǎng)站
瀏覽器采集可模擬瀏覽器點擊采集
采集批量數(shù)據(jù)源網(wǎng)站可配置一個模板采集成千上萬個網(wǎng)站
支持的數(shù)據(jù)格式采集外部數(shù)據(jù)源采集時可調(diào)用本數(shù)據(jù)庫中的其他數(shù)據(jù)表,或其他數(shù)據(jù)庫/服務(wù)器中的數(shù)據(jù),作為采集關(guān)鍵詞、數(shù)據(jù)源地址等
采集視頻可采集網(wǎng)頁中的視頻
采集直播可采集網(wǎng)頁中正在直播的視頻
采集音頻可采集網(wǎng)頁中的音頻
采集圖片可采集網(wǎng)頁中的圖片
采集pdf文件可采集網(wǎng)頁中的pdf文件
采集word文件可采集網(wǎng)頁中的word文件
采集表格文件可采集網(wǎng)頁中的表格
采集各種附件可采集網(wǎng)頁中的各類附件
多場景輕松配置
功能分類功能點詳細介紹
登錄配置登錄配置可自動配置,也可手動配置
自動生成cookie可自動生成cookie,獲取數(shù)據(jù)
手動配置cookie對于需要cookie的網(wǎng)站,可手動添加cookie,獲取數(shù)據(jù)
關(guān)鍵詞配置關(guān)鍵詞配置可進行關(guān)鍵詞配置,可在高級配置中配置各項參數(shù)
批量導(dǎo)入、修改關(guān)鍵詞批量導(dǎo)入刪除、修改關(guān)鍵詞
關(guān)鍵詞自動排重批量關(guān)鍵詞自動排重
鏈接抽取過濾定位過濾鏈接根據(jù)網(wǎng)頁位置,抽取固定位置的鏈接
地址過濾鏈接根據(jù)網(wǎng)址規(guī)律,抽取特定規(guī)律的鏈接
標(biāo)題過濾鏈接根據(jù)網(wǎng)址標(biāo)題規(guī)律,抽取符合標(biāo)題規(guī)律的鏈接
智能拼接鏈接根據(jù)網(wǎng)站規(guī)律,高級設(shè)置鏈接參數(shù),快速拼接鏈接
數(shù)據(jù)抽取過濾定位取值抽取特定位置的數(shù)據(jù)
節(jié)點取值抽取網(wǎng)頁源碼中特定節(jié)點的數(shù)據(jù)
特征定位根據(jù)正文文本特征,自動定位抽取數(shù)據(jù)
智能識別正文可智能識別數(shù)據(jù)頁正文內(nèi)容
智能識別標(biāo)題可智能識別數(shù)據(jù)頁標(biāo)題
自動獲取網(wǎng)頁title可自動獲取數(shù)據(jù)頁title
自動獲取網(wǎng)頁時間可自動獲取網(wǎng)頁更新時間
自動獲取采集時間可自動獲取采集時間
自動獲取頁面源碼自動獲取頁面源碼
自動識別列表數(shù)據(jù)自動識別網(wǎng)頁中列表鏈接的內(nèi)容并抽取數(shù)據(jù)。
智能獲取節(jié)點屬性值可智能獲取頁面源碼中某一節(jié)點屬性值,如href中的鏈接地址
智能提取其他頁面數(shù)據(jù)可智能提取其他頁面的數(shù)據(jù),將其他頁數(shù)據(jù)存儲到本頁的數(shù)據(jù)表中
支持UTF-8與GBK相互轉(zhuǎn)碼可以將頁面源碼中的UTF-8與GBK相互轉(zhuǎn)碼
挖掘清洗分類支持數(shù)據(jù)分析功能可對采集到的數(shù)據(jù)進行分析
挖掘特征數(shù)據(jù)根據(jù)某類特征挖掘數(shù)據(jù)
智能清洗數(shù)據(jù)根據(jù)數(shù)據(jù)規(guī)律,智能清洗不需要的文本內(nèi)容
自定義主題識別按照需求自動識別文本主題,并分類采集存儲
條件篩選自定義采集視頻大小及時長設(shè)置采集視頻的大小及時長,采集符合要求的視頻數(shù)據(jù)
自定義采集文件大小設(shè)置采集文件的大小,采集符合要求的文件數(shù)據(jù)
過濾采集文件類型設(shè)置采集文件的類型,采集該類型的文件數(shù)據(jù)
采集特定時間段數(shù)據(jù)采集網(wǎng)站中指定時間段內(nèi)的數(shù)據(jù)
采集預(yù)覽模板預(yù)覽在配置過程中預(yù)覽某層模板的采集效果,及時調(diào)整提高配置效率
檢測鏈接抽取在配置中可隨時查看鏈接抽取準(zhǔn)確性,調(diào)整過濾規(guī)則
檢測數(shù)據(jù)抽取在配置中可隨時查看數(shù)據(jù)抽取準(zhǔn)確性
批量智能配置配置繼承共享子模板共享父模板內(nèi)容
配置映射共享不同模板之間通過映射靈活共享共同配置部分
關(guān)聯(lián)外部數(shù)據(jù)源關(guān)鍵詞、采集源,數(shù)據(jù)匹配入庫等均能關(guān)聯(lián)外部數(shù)據(jù)源進行數(shù)據(jù)匹配
AI配置批量網(wǎng)站智能配置成千上萬的結(jié)構(gòu)類似的網(wǎng)站
模板復(fù)制粘貼將已配置好的模板層級,復(fù)制并粘貼到需要的新模板中,提高配置效率
表結(jié)構(gòu)可復(fù)用不同網(wǎng)站可重復(fù)使用同一表結(jié)構(gòu),無需重建表結(jié)構(gòu)
普適化運行設(shè)置
模板導(dǎo)入/出導(dǎo)出采集模板可將配置好的采集模板導(dǎo)出
導(dǎo)入采集模板/出可將配置好的采集模板導(dǎo)入
靈活調(diào)速自定義設(shè)置采集速度自定義采集速度,采集速度最高可達8000萬條/天
自定義調(diào)整采集線程自定義調(diào)整線程
動態(tài)調(diào)整采集速度可直接在采集過程中調(diào)整采集速度,無需終止任務(wù)
動態(tài)調(diào)整采集線程可直接在采集過程中調(diào)整采集線程,無需終止任務(wù)
瀏覽器加速加載時自動過濾頁面中的非html文件,加速加載和運行
定時采集間隔定時采集設(shè)定間隔時間,實現(xiàn)固定間隔時間的采集開啟/關(guān)閉
定點定時采集設(shè)定爬蟲自動開始/關(guān)閉的時間
自定義采集策略增量采集增量采集網(wǎng)頁更新數(shù)據(jù),不重復(fù)采集/天
查漏采集運行中網(wǎng)絡(luò)錯誤、入庫錯誤的請求,查漏再次采集,更新補充保證采集數(shù)據(jù)的完整性
繼續(xù)采集繼續(xù)運行上次未完成的采集任務(wù)
全部重采重新運行全部采集任務(wù)
自定義請求上限設(shè)置請求上限,達到上限后停止采集
加載日志宏設(shè)置日志加載命令,使日志按照命令執(zhí)行
運行排重運行列表排重運行時對請求進行排重處理,防止重復(fù)采集數(shù)據(jù)
加載超時設(shè)置自定義超時時間設(shè)置發(fā)送超時和請求超時最大時長,有效防止因網(wǎng)絡(luò)等原因?qū)е碌?,超時請求發(fā)送或接收數(shù)據(jù)失敗的情況
超時重試次數(shù)設(shè)置設(shè)置超時重試次數(shù),可在超過設(shè)置的時間后多次重試
模擬瀏覽器模擬瀏覽器版本自定義設(shè)置運行時使用的瀏覽器版本
自定義User-Agent自定義User-Agent,模仿蜘蛛采集
異常錯誤處理網(wǎng)絡(luò)異常預(yù)警運行時遇到因網(wǎng)絡(luò)異常而導(dǎo)致的請求失敗,系統(tǒng)會自動預(yù)警
錯誤處理模板運行中錯誤的請求返回指指定模板中再次運行,大大提高采集效率
運行進度監(jiān)控采集日志記錄記錄運行過程中所有請求日志
日志導(dǎo)入/導(dǎo)出導(dǎo)出、導(dǎo)入日志
日志統(tǒng)計統(tǒng)計日志數(shù)據(jù)
自動保存任務(wù)進度出現(xiàn)異常情況時,自動保存任務(wù)進度,重新開啟后可繼續(xù)采集
采集順序多網(wǎng)站采集同時采集多個網(wǎng)站/模板
多網(wǎng)站同步采集將所有任務(wù)的所有日志都裝載完再開始采集??梢员WC順序和排重。
多網(wǎng)站異步采集邊加載邊采集,優(yōu)點是開始采集會比較快,等待時間短,缺點是無法保證順序和排重。
智能自檢系統(tǒng)配置檢測采集前運行自檢,可清楚查看配置設(shè)置是否達到最佳狀態(tài)
多策略反爬設(shè)置
反爬預(yù)警網(wǎng)絡(luò)異常識別自定義網(wǎng)絡(luò)異常識別次數(shù),當(dāng)達到次數(shù)時,會自動提醒
反爬識別自定義反爬識別次數(shù),當(dāng)達到次數(shù)時,會自動提醒
自定義預(yù)警操作可自行選擇預(yù)警操作,包括:暫停、自動休眠、自動更換代理IP等
反爬提醒可自行選擇提醒方式,包括:圖標(biāo)閃爍、彈窗等待等
代理IP設(shè)置接入動靜態(tài)代理IP可接入第三方代理IP,動態(tài)和靜態(tài)均可
代理IP測試接入第三方代理IP后,可測試其有效性
反爬自動更換代理IP運行時,自動識別反爬并自動更換代理IP
代理IP優(yōu)化優(yōu)化無效代理,優(yōu)化響應(yīng)過慢代理
多通道采集多線程采集時,真實模擬多個通道進行采集的過程
動態(tài)IP鎖定將動態(tài)IP與運行時獲取一條數(shù)據(jù)的一組請求鎖定,更真實的模擬IP獲取數(shù)據(jù)的過程
全局代理IP設(shè)置設(shè)置全局代理IP
登錄反爬模擬多賬號登錄模擬多賬號登錄,用于封號的反爬策略
請求數(shù)限制自定義請求上限設(shè)置請求上限,達到上限后停止采集
驗證碼反爬支持批量識別驗證碼可接入第三方打碼平臺,批量識別驗證碼,解決網(wǎng)頁驗證碼問題
數(shù)據(jù)存儲與導(dǎo)出
導(dǎo)出格式多樣化導(dǎo)出為csv將數(shù)據(jù)導(dǎo)出為csv格式
導(dǎo)出為txt將數(shù)據(jù)導(dǎo)出為txt格式
導(dǎo)出為xls將數(shù)據(jù)導(dǎo)出為xls格式
導(dǎo)出圖片將采集到的圖片自定義命名字段,導(dǎo)出到指定文檔中
導(dǎo)出視頻將采集到的視頻自定義命名字段,導(dǎo)出到指定文檔中
導(dǎo)出附件將采集到的附件(pdf、word、xls等)自定義命名字段,導(dǎo)出到指定文檔中
局部導(dǎo)出導(dǎo)出指定范圍數(shù)據(jù)導(dǎo)出指定范圍的數(shù)據(jù)
導(dǎo)出指定字段導(dǎo)出指定字段的數(shù)據(jù)
自定義文件命名字段自定義文件命名字段
分組導(dǎo)出自定義文件夾分組導(dǎo)出將指定范圍的數(shù)據(jù),分組導(dǎo)出到自命名的不同文件夾中
篩選檢索按字段檢索關(guān)鍵詞檢索某一字段
全文檢索關(guān)鍵詞檢索全部數(shù)據(jù)
按字段檢索并導(dǎo)出關(guān)鍵詞檢索某一字段,并導(dǎo)出符合的數(shù)據(jù)
全文檢索并導(dǎo)出關(guān)鍵詞檢索全部數(shù)據(jù),并導(dǎo)出符合的數(shù)據(jù)
按字段檢索并刪除數(shù)據(jù)關(guān)鍵詞檢索某一字段,并刪除檢索出的數(shù)據(jù)
全文檢索并刪除數(shù)據(jù)關(guān)鍵詞檢索全部數(shù)據(jù),并刪除檢索出的數(shù)據(jù)
存儲功能自定義新增數(shù)據(jù)存儲規(guī)則可設(shè)置不同的數(shù)據(jù)存儲形式:僅更新新增數(shù)據(jù)、實時采集最新數(shù)據(jù)并覆蓋舊數(shù)據(jù)、實時采集所有采集數(shù)據(jù)等。
數(shù)據(jù)自動排重自定義排重字段,根據(jù)字段內(nèi)容進行排重存儲
多個網(wǎng)站數(shù)據(jù)統(tǒng)一存儲多網(wǎng)站數(shù)據(jù)同時采集并存儲到同一個數(shù)據(jù)表中
多網(wǎng)站數(shù)據(jù)獨立存儲多網(wǎng)站同時采集單獨存儲到不同數(shù)據(jù)表中
自帶數(shù)據(jù)庫系統(tǒng)默認數(shù)據(jù)庫為ForeLib數(shù)據(jù)庫
支持Mysql數(shù)據(jù)庫可關(guān)聯(lián)Mysql數(shù)據(jù)庫,將數(shù)據(jù)實時采集到Mysql數(shù)據(jù)庫中
支持Access數(shù)據(jù)庫可關(guān)聯(lián)Access數(shù)據(jù)庫,將數(shù)據(jù)實時采集到Access數(shù)據(jù)庫中
支持SQL Server數(shù)據(jù)庫可關(guān)聯(lián)SQL Server數(shù)據(jù)庫,將數(shù)據(jù)實時采集到SQL Server數(shù)據(jù)庫中
連接外部服務(wù)器存儲連接外部服務(wù)器,將數(shù)據(jù)直接存儲到外部服務(wù)器中
數(shù)據(jù)推送發(fā)布
挖掘清洗推送時挖掘數(shù)據(jù)在推送的同時,對文本進行特征挖掘提取
推送時清洗數(shù)據(jù)在推送的同時,對數(shù)據(jù)按照規(guī)律進行清洗
推送時間設(shè)置推送時間設(shè)置將采集到的數(shù)據(jù)定時推送
實時推送實時推送采集到的數(shù)據(jù)
推送方式設(shè)置郵件推送通過郵件推送數(shù)據(jù)
http/https推送通過http/https推送數(shù)據(jù)
定制接口推送通過定制接口推送數(shù)據(jù)
數(shù)據(jù)庫推送將數(shù)據(jù)推送到指定數(shù)據(jù)庫
極速采集
并行采集流數(shù)據(jù)并行采集視頻文件并行下載多個視頻文件,加快下載速度
并行下載附件并行下載多個附件文件,加快下載速度
多進程采集多進程多線程運行可同時運行多進程和多個線程,加快采集速度
多網(wǎng)站智能管理多網(wǎng)站采集獨立管理同時運行多個網(wǎng)站時,可獨立方便管理
多網(wǎng)站定時采集獨立管理同時運行多個網(wǎng)站時,獨立對各網(wǎng)站進行定時管理
多網(wǎng)站日志獨立管理同時運行多個網(wǎng)站時,日志獨立管理
采集批量網(wǎng)站無上限可同時采集成千上萬個網(wǎng)站,沒有上限
自研內(nèi)核引擎JS引擎內(nèi)核采集引擎完全由C++編寫,不同于瀏覽器采集,單機采集速度最高可達400萬條/天
CSS引擎擁有CSS引擎,可對快速解析網(wǎng)頁中CSS數(shù)據(jù),高效采集
DOM樹解析引擎擁有DOM樹解析引擎,對網(wǎng)頁中DOM樹結(jié)構(gòu)快速解析
分布式引擎分布式引擎,可實現(xiàn)多機集群采集