亚洲色成人网站www永久,亚洲欧美人成视频一区在线,亚洲国产成人高清在线观看,亚洲精品久久久久久动漫,亚洲国产精品久久电影欧美

< 返回ForeSpider介紹頁
ForeSpider數(shù)據(jù)采集引擎功能列表
數(shù)據(jù)采集范圍
功能分類功能點(diǎn)詳細(xì)介紹
支持的網(wǎng)站結(jié)構(gòu)支持Ajax技術(shù)可采集Ajax網(wǎng)頁的內(nèi)容
采集基于js頁面的數(shù)據(jù)可采集基于js頁面的內(nèi)容
采集post請求數(shù)據(jù)可采集post請求中的內(nèi)容
采集get請求數(shù)據(jù)可采集get請求中的內(nèi)容
采集需要cookie的網(wǎng)站可采集需要cookie的網(wǎng)站
自動(dòng)解析JS啟用JavaScrIPt功能即可自動(dòng)解析頁面JS
網(wǎng)頁源碼智能解碼設(shè)置網(wǎng)頁編碼,即可自動(dòng)解碼
OAuth認(rèn)證采集OAuth認(rèn)證的網(wǎng)站
采集境外網(wǎng)站可采集境外網(wǎng)站
采集本地文件可采集本地文件內(nèi)容
采集內(nèi)網(wǎng)網(wǎng)站可采集內(nèi)網(wǎng)網(wǎng)站
采集APP軟件數(shù)據(jù)可采集各類APP軟件的數(shù)據(jù)
登錄采集可采集需要登錄的網(wǎng)站
關(guān)鍵詞采集可采集關(guān)鍵詞搜索出來的內(nèi)容
瀑布流翻頁采集可采集瀑布流翻頁的網(wǎng)站
瀏覽器采集可模擬瀏覽器點(diǎn)擊采集
采集批量數(shù)據(jù)源網(wǎng)站可配置一個(gè)模板采集成千上萬個(gè)網(wǎng)站
支持的數(shù)據(jù)格式采集外部數(shù)據(jù)源采集時(shí)可調(diào)用本數(shù)據(jù)庫中的其他數(shù)據(jù)表,或其他數(shù)據(jù)庫/服務(wù)器中的數(shù)據(jù),作為采集關(guān)鍵詞、數(shù)據(jù)源地址等
采集視頻可采集網(wǎng)頁中的視頻
采集直播可采集網(wǎng)頁中正在直播的視頻
采集音頻可采集網(wǎng)頁中的音頻
采集圖片可采集網(wǎng)頁中的圖片
采集pdf文件可采集網(wǎng)頁中的pdf文件
采集word文件可采集網(wǎng)頁中的word文件
采集表格文件可采集網(wǎng)頁中的表格
采集各種附件可采集網(wǎng)頁中的各類附件
多場景輕松配置
功能分類功能點(diǎn)詳細(xì)介紹
登錄配置登錄配置可自動(dòng)配置,也可手動(dòng)配置
自動(dòng)生成cookie可自動(dòng)生成cookie,獲取數(shù)據(jù)
手動(dòng)配置cookie對(duì)于需要cookie的網(wǎng)站,可手動(dòng)添加cookie,獲取數(shù)據(jù)
關(guān)鍵詞配置關(guān)鍵詞配置可進(jìn)行關(guān)鍵詞配置,可在高級(jí)配置中配置各項(xiàng)參數(shù)
批量導(dǎo)入、修改關(guān)鍵詞批量導(dǎo)入刪除、修改關(guān)鍵詞
關(guān)鍵詞自動(dòng)排重批量關(guān)鍵詞自動(dòng)排重
鏈接抽取過濾定位過濾鏈接根據(jù)網(wǎng)頁位置,抽取固定位置的鏈接
地址過濾鏈接根據(jù)網(wǎng)址規(guī)律,抽取特定規(guī)律的鏈接
標(biāo)題過濾鏈接根據(jù)網(wǎng)址標(biāo)題規(guī)律,抽取符合標(biāo)題規(guī)律的鏈接
智能拼接鏈接根據(jù)網(wǎng)站規(guī)律,高級(jí)設(shè)置鏈接參數(shù),快速拼接鏈接
數(shù)據(jù)抽取過濾定位取值抽取特定位置的數(shù)據(jù)
節(jié)點(diǎn)取值抽取網(wǎng)頁源碼中特定節(jié)點(diǎn)的數(shù)據(jù)
特征定位根據(jù)正文文本特征,自動(dòng)定位抽取數(shù)據(jù)
智能識(shí)別正文可智能識(shí)別數(shù)據(jù)頁正文內(nèi)容
智能識(shí)別標(biāo)題可智能識(shí)別數(shù)據(jù)頁標(biāo)題
自動(dòng)獲取網(wǎng)頁title可自動(dòng)獲取數(shù)據(jù)頁title
自動(dòng)獲取網(wǎng)頁時(shí)間可自動(dòng)獲取網(wǎng)頁更新時(shí)間
自動(dòng)獲取采集時(shí)間可自動(dòng)獲取采集時(shí)間
自動(dòng)獲取頁面源碼自動(dòng)獲取頁面源碼
自動(dòng)識(shí)別列表數(shù)據(jù)自動(dòng)識(shí)別網(wǎng)頁中列表鏈接的內(nèi)容并抽取數(shù)據(jù)。
智能獲取節(jié)點(diǎn)屬性值可智能獲取頁面源碼中某一節(jié)點(diǎn)屬性值,如href中的鏈接地址
智能提取其他頁面數(shù)據(jù)可智能提取其他頁面的數(shù)據(jù),將其他頁數(shù)據(jù)存儲(chǔ)到本頁的數(shù)據(jù)表中
支持UTF-8與GBK相互轉(zhuǎn)碼可以將頁面源碼中的UTF-8與GBK相互轉(zhuǎn)碼
挖掘清洗分類支持?jǐn)?shù)據(jù)分析功能可對(duì)采集到的數(shù)據(jù)進(jìn)行分析
挖掘特征數(shù)據(jù)根據(jù)某類特征挖掘數(shù)據(jù)
智能清洗數(shù)據(jù)根據(jù)數(shù)據(jù)規(guī)律,智能清洗不需要的文本內(nèi)容
自定義主題識(shí)別按照需求自動(dòng)識(shí)別文本主題,并分類采集存儲(chǔ)
條件篩選自定義采集視頻大小及時(shí)長設(shè)置采集視頻的大小及時(shí)長,采集符合要求的視頻數(shù)據(jù)
自定義采集文件大小設(shè)置采集文件的大小,采集符合要求的文件數(shù)據(jù)
過濾采集文件類型設(shè)置采集文件的類型,采集該類型的文件數(shù)據(jù)
采集特定時(shí)間段數(shù)據(jù)采集網(wǎng)站中指定時(shí)間段內(nèi)的數(shù)據(jù)
采集預(yù)覽模板預(yù)覽在配置過程中預(yù)覽某層模板的采集效果,及時(shí)調(diào)整提高配置效率
檢測鏈接抽取在配置中可隨時(shí)查看鏈接抽取準(zhǔn)確性,調(diào)整過濾規(guī)則
檢測數(shù)據(jù)抽取在配置中可隨時(shí)查看數(shù)據(jù)抽取準(zhǔn)確性
批量智能配置配置繼承共享子模板共享父模板內(nèi)容
配置映射共享不同模板之間通過映射靈活共享共同配置部分
關(guān)聯(lián)外部數(shù)據(jù)源關(guān)鍵詞、采集源,數(shù)據(jù)匹配入庫等均能關(guān)聯(lián)外部數(shù)據(jù)源進(jìn)行數(shù)據(jù)匹配
AI配置批量網(wǎng)站智能配置成千上萬的結(jié)構(gòu)類似的網(wǎng)站
模板復(fù)制粘貼將已配置好的模板層級(jí),復(fù)制并粘貼到需要的新模板中,提高配置效率
表結(jié)構(gòu)可復(fù)用不同網(wǎng)站可重復(fù)使用同一表結(jié)構(gòu),無需重建表結(jié)構(gòu)
普適化運(yùn)行設(shè)置
模板導(dǎo)入/出導(dǎo)出采集模板可將配置好的采集模板導(dǎo)出
導(dǎo)入采集模板/出可將配置好的采集模板導(dǎo)入
靈活調(diào)速自定義設(shè)置采集速度自定義采集速度,采集速度最高可達(dá)8000萬條/天
自定義調(diào)整采集線程自定義調(diào)整線程
動(dòng)態(tài)調(diào)整采集速度可直接在采集過程中調(diào)整采集速度,無需終止任務(wù)
動(dòng)態(tài)調(diào)整采集線程可直接在采集過程中調(diào)整采集線程,無需終止任務(wù)
瀏覽器加速加載時(shí)自動(dòng)過濾頁面中的非html文件,加速加載和運(yùn)行
定時(shí)采集間隔定時(shí)采集設(shè)定間隔時(shí)間,實(shí)現(xiàn)固定間隔時(shí)間的采集開啟/關(guān)閉
定點(diǎn)定時(shí)采集設(shè)定爬蟲自動(dòng)開始/關(guān)閉的時(shí)間
自定義采集策略增量采集增量采集網(wǎng)頁更新數(shù)據(jù),不重復(fù)采集/天
查漏采集運(yùn)行中網(wǎng)絡(luò)錯(cuò)誤、入庫錯(cuò)誤的請求,查漏再次采集,更新補(bǔ)充保證采集數(shù)據(jù)的完整性
繼續(xù)采集繼續(xù)運(yùn)行上次未完成的采集任務(wù)
全部重采重新運(yùn)行全部采集任務(wù)
自定義請求上限設(shè)置請求上限,達(dá)到上限后停止采集
加載日志宏設(shè)置日志加載命令,使日志按照命令執(zhí)行
運(yùn)行排重運(yùn)行列表排重運(yùn)行時(shí)對(duì)請求進(jìn)行排重處理,防止重復(fù)采集數(shù)據(jù)
加載超時(shí)設(shè)置自定義超時(shí)時(shí)間設(shè)置發(fā)送超時(shí)和請求超時(shí)最大時(shí)長,有效防止因網(wǎng)絡(luò)等原因?qū)е碌?,超時(shí)請求發(fā)送或接收數(shù)據(jù)失敗的情況
超時(shí)重試次數(shù)設(shè)置設(shè)置超時(shí)重試次數(shù),可在超過設(shè)置的時(shí)間后多次重試
模擬瀏覽器模擬瀏覽器版本自定義設(shè)置運(yùn)行時(shí)使用的瀏覽器版本
自定義User-Agent自定義User-Agent,模仿蜘蛛采集
異常錯(cuò)誤處理網(wǎng)絡(luò)異常預(yù)警運(yùn)行時(shí)遇到因網(wǎng)絡(luò)異常而導(dǎo)致的請求失敗,系統(tǒng)會(huì)自動(dòng)預(yù)警
錯(cuò)誤處理模板運(yùn)行中錯(cuò)誤的請求返回指指定模板中再次運(yùn)行,大大提高采集效率
運(yùn)行進(jìn)度監(jiān)控采集日志記錄記錄運(yùn)行過程中所有請求日志
日志導(dǎo)入/導(dǎo)出導(dǎo)出、導(dǎo)入日志
日志統(tǒng)計(jì)統(tǒng)計(jì)日志數(shù)據(jù)
自動(dòng)保存任務(wù)進(jìn)度出現(xiàn)異常情況時(shí),自動(dòng)保存任務(wù)進(jìn)度,重新開啟后可繼續(xù)采集
采集順序多網(wǎng)站采集同時(shí)采集多個(gè)網(wǎng)站/模板
多網(wǎng)站同步采集將所有任務(wù)的所有日志都裝載完再開始采集??梢员WC順序和排重。
多網(wǎng)站異步采集邊加載邊采集,優(yōu)點(diǎn)是開始采集會(huì)比較快,等待時(shí)間短,缺點(diǎn)是無法保證順序和排重。
智能自檢系統(tǒng)配置檢測采集前運(yùn)行自檢,可清楚查看配置設(shè)置是否達(dá)到最佳狀態(tài)
多策略反爬設(shè)置
反爬預(yù)警網(wǎng)絡(luò)異常識(shí)別自定義網(wǎng)絡(luò)異常識(shí)別次數(shù),當(dāng)達(dá)到次數(shù)時(shí),會(huì)自動(dòng)提醒
反爬識(shí)別自定義反爬識(shí)別次數(shù),當(dāng)達(dá)到次數(shù)時(shí),會(huì)自動(dòng)提醒
自定義預(yù)警操作可自行選擇預(yù)警操作,包括:暫停、自動(dòng)休眠、自動(dòng)更換代理IP等
反爬提醒可自行選擇提醒方式,包括:圖標(biāo)閃爍、彈窗等待等
代理IP設(shè)置接入動(dòng)靜態(tài)代理IP可接入第三方代理IP,動(dòng)態(tài)和靜態(tài)均可
代理IP測試接入第三方代理IP后,可測試其有效性
反爬自動(dòng)更換代理IP運(yùn)行時(shí),自動(dòng)識(shí)別反爬并自動(dòng)更換代理IP
代理IP優(yōu)化優(yōu)化無效代理,優(yōu)化響應(yīng)過慢代理
多通道采集多線程采集時(shí),真實(shí)模擬多個(gè)通道進(jìn)行采集的過程
動(dòng)態(tài)IP鎖定將動(dòng)態(tài)IP與運(yùn)行時(shí)獲取一條數(shù)據(jù)的一組請求鎖定,更真實(shí)的模擬IP獲取數(shù)據(jù)的過程
全局代理IP設(shè)置設(shè)置全局代理IP
登錄反爬模擬多賬號(hào)登錄模擬多賬號(hào)登錄,用于封號(hào)的反爬策略
請求數(shù)限制自定義請求上限設(shè)置請求上限,達(dá)到上限后停止采集
驗(yàn)證碼反爬支持批量識(shí)別驗(yàn)證碼可接入第三方打碼平臺(tái),批量識(shí)別驗(yàn)證碼,解決網(wǎng)頁驗(yàn)證碼問題
數(shù)據(jù)存儲(chǔ)與導(dǎo)出
導(dǎo)出格式多樣化導(dǎo)出為csv將數(shù)據(jù)導(dǎo)出為csv格式
導(dǎo)出為txt將數(shù)據(jù)導(dǎo)出為txt格式
導(dǎo)出為xls將數(shù)據(jù)導(dǎo)出為xls格式
導(dǎo)出圖片將采集到的圖片自定義命名字段,導(dǎo)出到指定文檔中
導(dǎo)出視頻將采集到的視頻自定義命名字段,導(dǎo)出到指定文檔中
導(dǎo)出附件將采集到的附件(pdf、word、xls等)自定義命名字段,導(dǎo)出到指定文檔中
局部導(dǎo)出導(dǎo)出指定范圍數(shù)據(jù)導(dǎo)出指定范圍的數(shù)據(jù)
導(dǎo)出指定字段導(dǎo)出指定字段的數(shù)據(jù)
自定義文件命名字段自定義文件命名字段
分組導(dǎo)出自定義文件夾分組導(dǎo)出將指定范圍的數(shù)據(jù),分組導(dǎo)出到自命名的不同文件夾中
篩選檢索按字段檢索關(guān)鍵詞檢索某一字段
全文檢索關(guān)鍵詞檢索全部數(shù)據(jù)
按字段檢索并導(dǎo)出關(guān)鍵詞檢索某一字段,并導(dǎo)出符合的數(shù)據(jù)
全文檢索并導(dǎo)出關(guān)鍵詞檢索全部數(shù)據(jù),并導(dǎo)出符合的數(shù)據(jù)
按字段檢索并刪除數(shù)據(jù)關(guān)鍵詞檢索某一字段,并刪除檢索出的數(shù)據(jù)
全文檢索并刪除數(shù)據(jù)關(guān)鍵詞檢索全部數(shù)據(jù),并刪除檢索出的數(shù)據(jù)
存儲(chǔ)功能自定義新增數(shù)據(jù)存儲(chǔ)規(guī)則可設(shè)置不同的數(shù)據(jù)存儲(chǔ)形式:僅更新新增數(shù)據(jù)、實(shí)時(shí)采集最新數(shù)據(jù)并覆蓋舊數(shù)據(jù)、實(shí)時(shí)采集所有采集數(shù)據(jù)等。
數(shù)據(jù)自動(dòng)排重自定義排重字段,根據(jù)字段內(nèi)容進(jìn)行排重存儲(chǔ)
多個(gè)網(wǎng)站數(shù)據(jù)統(tǒng)一存儲(chǔ)多網(wǎng)站數(shù)據(jù)同時(shí)采集并存儲(chǔ)到同一個(gè)數(shù)據(jù)表中
多網(wǎng)站數(shù)據(jù)獨(dú)立存儲(chǔ)多網(wǎng)站同時(shí)采集單獨(dú)存儲(chǔ)到不同數(shù)據(jù)表中
自帶數(shù)據(jù)庫系統(tǒng)默認(rèn)數(shù)據(jù)庫為ForeLib數(shù)據(jù)庫
支持Mysql數(shù)據(jù)庫可關(guān)聯(lián)Mysql數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到Mysql數(shù)據(jù)庫中
支持Access數(shù)據(jù)庫可關(guān)聯(lián)Access數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到Access數(shù)據(jù)庫中
支持SQL Server數(shù)據(jù)庫可關(guān)聯(lián)SQL Server數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到SQL Server數(shù)據(jù)庫中
連接外部服務(wù)器存儲(chǔ)連接外部服務(wù)器,將數(shù)據(jù)直接存儲(chǔ)到外部服務(wù)器中
數(shù)據(jù)推送發(fā)布
挖掘清洗推送時(shí)挖掘數(shù)據(jù)在推送的同時(shí),對(duì)文本進(jìn)行特征挖掘提取
推送時(shí)清洗數(shù)據(jù)在推送的同時(shí),對(duì)數(shù)據(jù)按照規(guī)律進(jìn)行清洗
推送時(shí)間設(shè)置推送時(shí)間設(shè)置將采集到的數(shù)據(jù)定時(shí)推送
實(shí)時(shí)推送實(shí)時(shí)推送采集到的數(shù)據(jù)
推送方式設(shè)置郵件推送通過郵件推送數(shù)據(jù)
http/https推送通過http/https推送數(shù)據(jù)
定制接口推送通過定制接口推送數(shù)據(jù)
數(shù)據(jù)庫推送將數(shù)據(jù)推送到指定數(shù)據(jù)庫
極速采集
并行采集流數(shù)據(jù)并行采集視頻文件并行下載多個(gè)視頻文件,加快下載速度
并行下載附件并行下載多個(gè)附件文件,加快下載速度
多進(jìn)程采集多進(jìn)程多線程運(yùn)行可同時(shí)運(yùn)行多進(jìn)程和多個(gè)線程,加快采集速度
多網(wǎng)站智能管理多網(wǎng)站采集獨(dú)立管理同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),可獨(dú)立方便管理
多網(wǎng)站定時(shí)采集獨(dú)立管理同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),獨(dú)立對(duì)各網(wǎng)站進(jìn)行定時(shí)管理
多網(wǎng)站日志獨(dú)立管理同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),日志獨(dú)立管理
采集批量網(wǎng)站無上限可同時(shí)采集成千上萬個(gè)網(wǎng)站,沒有上限
自研內(nèi)核引擎JS引擎內(nèi)核采集引擎完全由C++編寫,不同于瀏覽器采集,單機(jī)采集速度最高可達(dá)400萬條/天
CSS引擎擁有CSS引擎,可對(duì)快速解析網(wǎng)頁中CSS數(shù)據(jù),高效采集
DOM樹解析引擎擁有DOM樹解析引擎,對(duì)網(wǎng)頁中DOM樹結(jié)構(gòu)快速解析
分布式引擎分布式引擎,可實(shí)現(xiàn)多機(jī)集群采集