亚洲色成人网站www永久,亚洲欧美人成视频一区在线,亚洲国产成人高清在线观看,亚洲精品久久久久久动漫,亚洲国产精品久久电影欧美

數(shù)據專欄

智能大數(shù)據搬運工,你想要的我們都有

科技資訊

科技學院

科技百科

科技書籍

網站大全

軟件大全

如題,poker2連iMac各種斷連,得拔了重插,非常難受。而iMac自帶的藍牙鍵盤鼠標,難用就一個字。
來源:V2EX
發(fā)布時間:2020-08-27 18:50:05
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 自己的項目在單元測試很多的情況下跑覆蓋率時在MAC機器上100%會出現(xiàn)oom,以為創(chuàng)建的線程數(shù)超出了系統(tǒng)限制。怎么才能夠降低創(chuàng)建的線程數(shù)量?我看單元測試日志會創(chuàng)建真實的連接去連接MQ,這樣每一個class會創(chuàng)建幾個連接,能不能把這個rabbitMQ連接在跑單元測試的時候mock掉,有沒有什么辦法?
來源:開源中國
發(fā)布時間:2020-04-02 11:33:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 測試發(fā)現(xiàn)第一個方法會正常回滾,第二個方法就不會回滾,請問這是為什么呢?
來源:開源中國
發(fā)布時間:2018-04-10 10:59:00
apple也是不省心的主兒2012年買的imac,到這個月底三年期,還好當初買了care,前幾天黑屏,然后就去apple store送修了,現(xiàn)在修好了,看維修單:主板、顯卡、顯示屏、外屏玻璃和人工報價9千出頭,我這機器當初買才1w2多,讓我對后續(xù)維修充滿恐懼。 現(xiàn)在問題來了,這換的4個部件到底可以保修多久,是apple store說的90天還是官網說的主要部件2年非主要部件90天? 還有要吐槽一下,臺式機2年多出現(xiàn)這么嚴重的問題也算少見吧,這要是沒買care,完全就是坑啊
來源:V2EX
發(fā)布時間:2020-08-27 18:49:39
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 背景描述:在開發(fā)分支中,我們的boostrap.yml配置里邊配置了注冊中心、spring cloud config相關配置。連接注冊中心和遠程配置中心以及相應初始化,會讓測試執(zhí)行效率大為下降。 問題:但是在跑本地單元測試或者繼承測試時,我希望可以忽略bootstrap.yml的配置。該怎么辦? 補充:在非spring cloud的項目中,通過profile和application-test.yml可以很方便的實現(xiàn)隔離,但spring cloud 的bootstrap.yml中的配置,實在是不知道如何處理。如果單獨開一個本地開發(fā)調試分支,提交代碼時還得頻繁切換分支,以防調試環(huán)境的代碼合并到正式分支下。希望能在spring cloud 的項目中,能迅速地執(zhí)行集成測試,并且不影響代碼開發(fā)和提交。
來源:開源中國
發(fā)布時間:2019-06-23 14:09:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> .apache.maven.surefire.util.SurefireReflectionException: java.lang.reflect.InvocationTargetException; nested exception is java.lang.reflect.InvocationTargetException: null java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.maven.surefire.util.ReflectionUtils.invokeMethodWithArray(ReflectionUtils.java:189) at org.apache.maven.surefire.booter.ProviderFactory$ProviderProxy.invoke(ProviderFactory.java:165) at org.apache.maven.surefire.booter.ProviderFactory.invokeProvider(ProviderFactory.java:85) at org.apache.maven.surefire.booter.ForkedBooter.runSuitesInProcess(ForkedBooter.java:115) at org.apache.maven.surefire.booter.ForkedBooter.main(ForkedBooter.java:75) Caused by: java.lang.NoClassDefFoundError: Test at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at org.apache.maven.surefire.util.ReflectionUtils.tryGetMethod(ReflectionUtils.java:57) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.isSuiteOnly(JUnit3TestChecker.java:64) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.isValidJUnit3Test(JUnit3TestChecker.java:59) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.accept(JUnit3TestChecker.java:54) at org.apache.maven.surefire.common.junit4.JUnit4TestChecker.accept(JUnit4TestChecker.java:51) at org.apache.maven.surefire.util.DefaultScanResult.applyFilter(DefaultScanResult.java:97) at org.apache.maven.surefire.junit4.JUnit4Provider.scanClassPath(JUnit4Provider.java:194) at org.apache.maven.surefire.junit4.JUnit4Provider.invoke(JUnit4Provider.java:92) ... 9 more Caused by: java.lang.ClassNotFoundException: Test at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 22 more
來源:開源中國
發(fā)布時間:2019-03-19 11:14:00
看了官網給的低配用的是AMD Radeon R9 M290, 2GB. 平時就是看看視頻, 寫點文字和代碼啥的. 高手解讀下. 謝謝@
來源:V2EX
發(fā)布時間:2020-08-27 18:49:29
因為工作需要,有時候需要連著一個外接顯示器 (Dell), 但是大部分時間不想去使用這個外界顯示器.嘗試過關閉,關電源 etc, 但是apple 默認還是把信號給輸出給外界顯示器. 具體表現(xiàn)為能移動鼠標到已經關閉的顯示器 (坑爹啊), 有沒有軟件,來管理這個.
來源:V2EX
發(fā)布時間:2020-08-27 18:49:24
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 不好意思,又做伸手黨了,這個問題我沒找到原因,不知道大神們有沒有遇到過 spring集成junit4報錯如下: 翻譯之后大意是 是不是不能識別${jdbc.url}這句話呀,這個是配置在spring.xml中的, 而${jdbc.url}這個就是加載的jdbc.properties里的數(shù)據庫配置,我看這個配置沒啥問題啊,怎么就不行呢,我的測試類是這樣的: 是缺少什么嗎?我用的是MyBatis接口綁定開發(fā) ,沒有dao實現(xiàn)類那種,跟這個沒關系吧,哪位大神指點迷津一下
來源:開源中國
發(fā)布時間:2019-03-08 16:43:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> junit如何調試java web項目,在不用任何框架下
來源:開源中國
發(fā)布時間:2019-02-06 12:16:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 如果沒有多個模塊,十分簡單,加兩個注解就好了: @RunWith(SpringRunner.class) @SpringBootTest 但在多模塊下這么做會報找不到Spring上下文的錯誤。 查了各種資料,但還沒找到可行的辦法。網上流傳的有一定可行性的方法,是每個模塊都各自寫一個測試配置類。 但在測試的功能需要使用其余模塊的配置(properties文件和Configuration類)時,依然會報錯。 比如說common模塊的配置類和配置文件,有數(shù)據庫連接等信息;而user模塊的功能測試需要用到。跑程序時沒問題,但單元測試時該如何獲取其余模塊的配置?
來源:開源中國
發(fā)布時間:2018-08-14 22:56:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 在Spring Boot中使用Junit進行測試,測試代碼如下: @RunWith(SpringJUnit4ClassRunner.class) @SpringBootTest(classes = WebPortalApplication.class) public class OTSLogDaoTest { @Autowired OTSLogDao otsLogDao; @Test public void getTrackInfo() throws Exception { List trackInfo = otsLogDao.getTrackInfo(new Date()); } } 結果運行報錯,報錯如下: java.lang.IllegalStateException: Failed to load ApplicationContext at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:124) at org.springframework.test.context.support.DefaultTestContext.getApplicationContext(DefaultTestContext.java:83) at org.springframework.test.context.web.ServletTestExecutionListener.setUpRequestContextIfNecessary(ServletTestExecutionListener.java:189) at org.springframework.test.context.web.ServletTestExecutionListener.prepareTestInstance(ServletTestExecutionListener.java:131) at org.springframework.test.context.TestContextManager.prepareTestInstance(TestContextManager.java:230) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.createTest(SpringJUnit4ClassRunner.java:228) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner$1.runReflectiveCall(SpringJUnit4ClassRunner.java:287) at org.junit.internal.runners.model.ReflectiveCallable.run(ReflectiveCallable.java:12) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.methodBlock(SpringJUnit4ClassRunner.java:289) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.runChild(SpringJUnit4ClassRunner.java:247) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.runChild(SpringJUnit4ClassRunner.java:94) at org.junit.runners.ParentRunner$3.run(ParentRunner.java:290) at org.junit.runners.ParentRunner$1.schedule(ParentRunner.java:71) at org.junit.runners.ParentRunner.runChildren(ParentRunner.java:288) at org.junit.runners.ParentRunner.access$000(ParentRunner.java:58) at org.junit.runners.ParentRunner$2.evaluate(ParentRunner.java:268) at org.springframework.test.context.junit4.statements.RunBeforeTestClassCallbacks.evaluate(RunBeforeTestClassCallbacks.java:61) at org.springframework.test.context.junit4.statements.RunAfterTestClassCallbacks.evaluate(RunAfterTestClassCallbacks.java:70) at org.junit.runners.ParentRunner.run(ParentRunner.java:363) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.run(SpringJUnit4ClassRunner.java:191) at org.junit.runner.JUnitCore.run(JUnitCore.java:137) at com.intellij.junit4.JUnit4IdeaTestRunner.startRunnerWithArgs(JUnit4IdeaTestRunner.java:68) at com.intellij.rt.execution.junit.IdeaTestRunner$Repeater.startRunnerWithArgs(IdeaTestRunner.java:51) at com.intellij.rt.execution.junit.JUnitStarter.prepareStreamsAndStart(JUnitStarter.java:237) at com.intellij.rt.execution.junit.JUnitStarter.main(JUnitStarter.java:70) Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'serverEndpointExporter' defined in class path resource [com/ipubtrans/wp/websocket/WebSocketConfig.class]: Invocation of init method failed; nested exception is java.lang.IllegalStateException: javax.websocket.server.ServerContainer not available at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1628) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.doCreateBean(AbstractAutowireCapableBeanFactory.java:555) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.createBean(AbstractAutowireCapableBeanFactory.java:483) at org.springframework.beans.factory.support.AbstractBeanFactory$1.getObject(AbstractBeanFactory.java:306) at org.springframework.beans.factory.support.DefaultSingletonBeanRegistry.getSingleton(DefaultSingletonBeanRegistry.java:230) at org.springframework.beans.factory.support.AbstractBeanFactory.doGetBean(AbstractBeanFactory.java:302) at org.springframework.beans.factory.support.AbstractBeanFactory.getBean(AbstractBeanFactory.java:197) at org.springframework.beans.factory.support.DefaultListableBeanFactory.preInstantiateSingletons(DefaultListableBeanFactory.java:761) at org.springframework.context.support.AbstractApplicationContext.finishBeanFactoryInitialization(AbstractApplicationContext.java:867) at org.springframework.context.support.AbstractApplicationContext.refresh(AbstractApplicationContext.java:543) at org.springframework.boot.SpringApplication.refresh(SpringApplication.java:693) at org.springframework.boot.SpringApplication.refreshContext(SpringApplication.java:360) at org.springframework.boot.SpringApplication.run(SpringApplication.java:303) at org.springframework.boot.test.context.SpringBootContextLoader.loadContext(SpringBootContextLoader.java:120) at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContextInternal(DefaultCacheAwareContextLoaderDelegate.java:98) at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:116) ... 24 more Caused by: java.lang.IllegalStateException: javax.websocket.server.ServerContainer not available at org.springframework.util.Assert.state(Assert.java:70) at org.springframework.web.socket.server.standard.ServerEndpointExporter.afterPropertiesSet(ServerEndpointExporter.java:102) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.invokeInitMethods(AbstractAutowireCapableBeanFactory.java:1687) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1624) ... 39 more 報錯的創(chuàng)建失敗的類如下: @Configuration public class WebSocketConfig { @Bean public ServerEndpointExporter serverEndpointExporter() { return new ServerEndpointExporter(); } } 問題在于: 直接運行程序不會報錯 測試時才報錯
來源:開源中國
發(fā)布時間:2017-09-06 11:32:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 現(xiàn)在,我正在做一個網站爬蟲,但是應該是被一個網站視為攻擊了吧!我用瀏覽器訪問這個網站,顯示正常,但是程序訪問,返回的是電信的那個域名錯誤;為了躲過限制: 1.采用了禁用cookie; 2.訪問google cache(由于學校上午必須安裝學校的客戶端,使用vpn一會后,就把我鏈接斷了); 3.使用torproject(tor被封了,要想使用需要使用vpn); 4.改變user-aget; 請問各位大神,還有什么方法可以嘗試? 悲劇的是現(xiàn)在瀏覽球也返回 http://sddnserror7.wo.com.cn:8080/issueunziped/baidusd121009/self0.jsp?UserUrl=www.woaidu.org 大神求指導
來源:開源中國
發(fā)布時間:2013-04-01 14:31:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> rt,使用scrapy shell測試語句:scrapy shell "http://list.jd.com/list.html?cat=670,671,2694" 也會出現(xiàn)exceptions.AttributeError: 'Response' object has no attribute 'body_as_unicode'這個問題,之前爬了幾個其他網站都可以,請教一下這是什么問題呢?
來源:開源中國
發(fā)布時間:2014-07-31 10:17:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 如,一個將數(shù)據保存到excel文件的管道類,作為一個通用類,不寫死Item類的判斷過程,用dict來map類名和文件的關系, outputs = {‘AAAAAItem’: dict(wb=wb, ws=ws), 'BBBBBItem': dict(wb=wb, ws=ws), ...} 所以對于這個dict來說,只有來了一個新的沒見過的Item實例才會初始化與之對應的文件。 def process_item(self, item, spider): output = self.outputs.get(item.item_name) # item_name換成type(item)也可以哈哈,一樣滴 if not output: # create file # ... output = dict(wb=wb, ws=ws) self.outputs[item.item_name] = output output['ws'].append([...]) return item 那么問題來了,Item們并發(fā)懟到這個pipeline里,在第一次的創(chuàng)建文件的過程中,會有線程安全之類的問題嗎?要加個雙重檢驗鎖咩?(懶得看它的源碼是怎么調pipeline&自己些測試)
來源:開源中國
發(fā)布時間:2019-02-10 17:35:00
Windows下無庸置疑是word。那么在Mac OS下呢,我試了下Pages,似乎并不是那么好用,一切都需要重新學習。而且發(fā)給別人的話,兼容性問題是如何解決的呢。 試過另外款軟件Bean,很小巧,但又總覺得欠缺了點什么。 大家是如何選擇的?
來源:V2EX
發(fā)布時間:2020-08-27 18:48:34
以前在word中寫文檔的時候,習慣插入一個doc對象,實現(xiàn)一個文檔內嵌多個子文檔,這樣管理和傳輸都比較方便,磁盤上需要處理的只是一個文件。最近用Pages,昨天也有這個需求,結果只發(fā)現(xiàn)可以通過超鏈接打開另一Pages文檔,沒找到可以插入內建對象的功能。 請教下各位是本身沒有這個功能呢還是?
來源:V2EX
發(fā)布時間:2020-08-27 18:48:29
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 大家好,我剛開始學習使用scrapy,希望能請教一個問題。這是我的spiders文件夾中爬蟲文件的代碼 class PabhSpider(CrawlSpider): name = 'pabh' allowed_domains = ['xxx'] def start_requests(self): url = 'http://xxx' num1 = '01' formdata = { "depart":num, "years":'2014' } return [FormRequest(url=url,formdata=formdata,method='get',callback=self.parse)] def parse(self, response): item = XXXItem() hxs = Selector(response) item['bh'] = hxs.xpath('/html/body/form/p/font/select[3]/option/@value').extract() yield item num = ['02','03','04','05','06','07','08','09','10','11','12','13','14','21','31','40','51','61'] for x in num: url = 'http://xxx' formdata={ "depart":x, "years":'2014' } yield FormRequest(url=url,formdata=formdata,method='get',callback=self.parse) 我現(xiàn)在是這樣寫的。 我想不停的向一個url發(fā)送不同的get請求,然后獲得返回的數(shù)據,現(xiàn)在這樣寫,返回的很多數(shù)據都是重復的, 而且不一定每次都能請求成功返回,有時候會發(fā)送同一個get參數(shù)兩次。
來源:開源中國
發(fā)布時間:2014-11-04 21:52:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 本人正在爬取一個網站,輸入網站地址后返回的是異步的ajax請求, 我想獲取所有的這些xhr以及它們的Form Data 請問有沒有辦法呢。困擾一天了 不知道怎么辦? 求大神解救一下,用的是python 以及Scrap'y
來源:開源中國
發(fā)布時間:2018-08-29 22:49:00
不知道有沒有辦法設定新款鍵盤上面的多媒體鍵?(主要是可以隨時控制iTunes)說實話,那三個按鍵太有用了!
來源:V2EX
發(fā)布時間:2020-08-27 18:48:15
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 爬蟲源碼 def parse(self, response): data = json.loads(response.text)['result']['data'] if data is None: return for str in data: it_item = SinastarItem() it_item['userid'] = str['_id'] it_item['name'] = str['title'] it_item['starurl'] = str['url'] it_item['pic'] = str['pic'] if str['birth_year'] != '' and str['birth_month'] != '' and str['birth_day'] != '': it_item['birthday'] = str['birth_year'] + "/" + str['birth_month'] + "/" + str['birth_day'] else: it_item['birthday'] = '' it_item['xingzuo'] = str['astrology'] it_item['sex'] = str['gender'] it_item['profession'] = str['profession'] it_item['area'] = str['nationality'] it_item['height'] = str['height'] if not it_item['userid'] is None: intro_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=intro&id=' + it_item['userid'] base_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=base&id=' + it_item['userid'] photo_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=photo&id=' + it_item['userid'] yield scrapy.Request(intro_url,callback=self.info_item,meta={'item':it_item,'type':'intro'}) yield scrapy.Request(base_url, callback=self.info_item, meta={'item': it_item,'type':'base'}) yield scrapy.Request(photo_url, callback=self.photo_item, meta={'item': it_item}) #寫真 def photo_item(self,response): item = response.meta['item'] photoji = response.xpath("http://*[@id='waterfall_roles']/li/a/img/@src").extract() ##取出寫真集 plen = len(photoji) if plen is not None and plen > 10: imgurl = random.sample(photoji, 10) ##隨機取list 10個數(shù) item['imgurl'] = ','.join(imgurl) else: if photoji is not None: item['imgurl'] = ','.join(photoji) else: item['imgurl'] = photoji return item ## 簡介 def info_item(self, response): item = response.meta['item'] infodata = response.xpath("http://div[@class='detail-base']/p/text()").extract() if response.meta['type'] == 'intro': ##簡介類型 item['intro'] = infodata else: item['base'] = infodata return item 管道Pipeline 源碼 def process_item(self, item, spider): data = dict(item) imgurl = data['imgurl'] base = data['base'] intro = data['intro'] userid = data['userid'] name = data['name'] sex = data['sex'] area = data['area'] xingzuo = data['xingzuo'] ##等于空 birthday = data['birthday'] ##等于空 height = data['height'] ##等于空 pic = data['pic'] profession = data['profession'] try: onlysql = " select * from tw_cms_article_star where userid ='%s'" % data['userid'] # 查重復id # 執(zhí)行sql語句 self.cur.execute(onlysql) # 是否有重復數(shù)據 repetition = self.cur.fetchone() # 重復 if repetition is not None: # 結果返回,已存在,則不插入 pass else: self.cur.execute("""insert into tw_cms_article_star (name,sex,area,xingzuo,birthday,height,pic,userid,intro,base,profession,imgurl) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s) """ % [name,sex,area,xingzuo,birthday,height,pic,userid,intro,base,profession,imgurl]) #self.cur.execute(insersql) # 提交sql語句 self.mydb.commit() self.cur.close() except Exception as error: # 出現(xiàn)錯誤時打印錯誤日志 logging.error(error) # 發(fā)生錯誤回滾 self.mydb.rollback() self.mydb.close() imgurl = data['imgurl'] base = data['base'] intro = data['intro'] 這三個變量,由于是初始抓取頁面分配到的參數(shù),再抓下一層分配的數(shù)據 實現(xiàn)的目的:把初始頁面抓到的數(shù)據+多個頁面的數(shù)據,集合在一起,一次性入庫。 問題描述:現(xiàn)在就是初始抓到數(shù)據,print后有三個數(shù)組,數(shù)據是初始頁面的,還有其它頁面,這樣就導致第一次imgurl,base,intro都會不存在,keyerror,嘗試判斷不存在,還是一直報錯,導致入庫一直失敗 求更好的解決方法~
來源:開源中國
發(fā)布時間:2018-07-24 15:29:00
難道下一時代就是這樣的風格?總感覺不如以前的細膩,倒是頗有Win上iTunes的影子...難道和非64位有關聯(lián)?
來源:V2EX
發(fā)布時間:2020-08-27 18:48:07
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 我想要爬取搜狐新聞 網址是: http://news.sohu.com/guoneixinwen.shtml 有很多頁需要爬取,按以往的一些網站,源碼會在下一頁按鈕的地方顯示出下一頁的href,然后我只要抓出這個href就可以爬到了。但上邊這個的下一頁是用js來 跳轉的,不知道這種情況該如何處理呢? 上一頁 下一頁 末頁 下邊是我原來的做法,該怎么改呢? class CurrentPolitics(CrawlSpider): reload(sys) sys.setdefaultencoding('utf8') name = "Sohu_CurrentPolitics" #allowed_domains = ["http://news.sohu.com"] start_urls = [ ] def start_requests(self): for url in self.start_urls: yield Request(url) def __init__(self, **kwargs): path = "/CpsecSpiders/rules/sohu.xml" xmlpath = os.getcwd()+path print xmlpath DOMTree = xml.dom.minidom.parse(xmlpath) collection = DOMTree.documentElement spiders = collection.getElementsByTagName("spider") print spiders print '@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@' for spider in spiders: article_name1 = spider.getElementsByTagName('article_name')[0] self.article_name = article_name1.childNodes[0].data article_url1 = spider.getElementsByTagName('article_url')[0] self.article_url = article_url1.childNodes[0].data article_content1 = spider.getElementsByTagName('article_content')[0] self.article_content = article_content1.childNodes[0].data next_page_url1 = spider.getElementsByTagName('next_page_url')[0] self.next_page_url = next_page_url1.childNodes[0].data baseurl1 = spider.getElementsByTagName('base_url')[0] self.baseurl = baseurl1.childNodes[0].data article_author1 = spider.getElementsByTagName('article_author')[0] self.article_author = article_author1.childNodes[0].data article_time1 = spider.getElementsByTagName('article_time')[0] self.article_time = article_time1.childNodes[0].data article_click_num1 = spider.getElementsByTagName('article_click_num')[0] self.article_click_num = article_click_num1.childNodes[0].data article_reply_num1 = spider.getElementsByTagName('article_reply_num')[0] self.article_reply_num = article_reply_num1.childNodes[0].data start_url1 = spider.getElementsByTagName('start_url')[0] self.start_url = start_url1.childNodes[0].data self.start_urls = self.start_url.split(',') print self.start_urls #allowed_domains1 = spider.getElementsByTagName('allowed_domains')[0] #self.allowed_domains = allowed_domains1.childNodes[0].data def parse(self, response): #選擇器 sel = Selector(response) item = CpsecspidersItem() #文章url列表 article_url = sel.xpath(self.article_url).extract() #下一頁地址 next_page_url = sel.xpath(self.next_page_url).extract() for url in article_url: urll = urljoin(self.baseurl,url) request = scrapy.Request(urll,callback=self.parse_second) request.meta['item'] = item yield request #確認有沒有下一頁 if next_page_url[0]: print "next"+urljoin(self.baseurl,next_page_url[0]) request = scrapy.Request(urljoin(self.baseurl,next_page_url[0]),callback=self.parse) yield request def parse_second(self, response): content = '' sel = Selector(response) item = response.meta['item'] #文章信息采集 ####################################################################################################################### article_url = str(response.url) today_timestamp = sp.get_tody_timestamp() article_id = sp.hashForUrl(article_url) article_name = sel.xpath(self.article_name).extract() article_time = sel.xpath(self.article_time).extract() article_content = sel.xpath(self.article_content).extract() article_author = sel.xpath(self.article_author).extract() article_clik_num = sel.xpath(self.article_click_num).extract() article_reply_num = sel.xpath(self.article_reply_num).extract() 希望有大牛指點一下! %3C/td%3E
來源:開源中國
發(fā)布時間:2015-08-17 21:04:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 需求:有個redis隊列,我需要從隊列中獲取數(shù)據(源相關的配置規(guī)則),然后加入到scrapy的spider中,并啟動。 目前的解決方法: 開啟了個守護線程,使用scrapy的CrawlerRunner來啟動。但是這樣在windows下運行正常,在linux下,twisted使用的epoll一定時間內沒有事件的話,dopoll方法進入無限等待狀態(tài),加入新的爬蟲也不會爬取。 求教大神們,一般這種需求怎么搞。
來源:開源中國
發(fā)布時間:2018-01-16 10:25:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> python3.6 scrapy 1.4.0 斷點調試時可以看到數(shù)據,但是命令行導出csv文件為空。 spider文件: import scrapy import re from lxml import etree from scrapy.http import Request from dingdian.items import DingdianItem ######################################################################## class myspider(scrapy.Spider): """""" name= 'dingdian' #allow_domains =['x23us.com'] base_url ='http://www.23us.so/list/' #---------------------------------------------------------------------- def __init__(self): """Constructor""" #---------------------------------------------------------------------- def start_requests(self): """""" for i in range(1,2): #url =self.base_url +str(i)+'_1.html' url ='http://www.23us.so/list/1_1.html' yield Request(url,self.parse) #yield Request('http://www.x23us.com/quanben/1',self.parse) def parse(self,response): #print(response.url) #初始網址正確 #print(response.text) #pattern =re.compile('(.*?)') #pageIndex =re.findall(pattern, response) pageIndex= response.xpath('//a[@class="last"]/text()').extract() print(pageIndex) baseurl = str(response.url)[:-7] for num in range(1,int(pageIndex[0])-200): url =baseurl+'_'+str(num) +'.html' yield Request(url,callback=self.getname) #---------------------------------------------------------------------- def getname(self,response): """""" #contents= response.xpath('//a[@class="last"]/text()').extract() #print(pageIndex) tds =response.xpath('//tr[@bgcolor="#FFFFFF"]') for td in tds: novelname = td.xpath('./td[@class="L"]/a/text()').extract() novelurl =td.xpath('./td[@class="L"]/a/@href')[0].extract() yield Request(novelurl, callback=self.getcontent, meta={'name':novelname, 'url':novelname}) #---------------------------------------------------------------------- def getcontent(self,response): """""" item = DingdianItem() item['name']=str(response.meta['name']) item['novelurl']=response.url #novelurl = response.url tds =response.xpath('//table[@id="at"]') for td in tds: #author =td.xpath('//tr[1]/td[2]/text()').extract() item['author'] =td.xpath('//tr[1]/td[2]/text()').extract() #serialstatus=td.xpath('//tr[1]/td[3]/text()').extract() item['serialstatus'] =td.xpath('//tr[1]/td[3]/text()').extract() #lastupdatatime =td.xpath('//tr[2]/td[3]/text()').extract() item['lastupdatatime'] =td.xpath('//tr[2]/td[3]/text()').extract() #like = td.xpath('//tr[2]/td[1]/text()').extract() item['like'] =td.xpath('//tr[2]/td[1]/text()').extract() print(author,novelurl,serialstatus,lastupdatatime,like,) #item['author'] = response.xpath('//tbody/tr/td[1]') yield item # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals import json import codecs import sys class DingdianPipeline(object): #---------------------------------------------------------------------- def __init__(self): self.file = codecs.open('dingdian.json', mode='wb', encoding='utf-8') def process_item(self, item, spider): pass ##link_url = item['link_url'] #file_name = link_url[7:-6].replace('/','_') #file_name += ".txt" #fp = open("dingdianspider.txt", 'w') #fp.write(item['name'],item['author'],item['novelurl'],item['serialstatus'],r"\n") #fp.close() #return item # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals import json import codecs import sys class DingdianPipeline(object): #---------------------------------------------------------------------- def __init__(self): self.file = codecs.open('dingdian.json', mode='wb', encoding='utf-8') def process_item(self, item, spider): pass ##link_url = item['link_url'] #file_name = link_url[7:-6].replace('/','_') #file_name += ".txt" #fp = open("dingdianspider.txt", 'w') #fp.write(item['name'],item['author'],item['novelurl'],item['serialstatus'],r"\n") #fp.close() #return item item文件: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class DingdianItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() author = scrapy.Field() novelurl =scrapy.Field() serialstatus =scrapy.Field() lastupdatatime=scrapy.Field() like =scrapy.Field() #name_id =scrapy.Field()
來源:開源中國
發(fā)布時間:2017-09-02 09:03:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> # -*- coding: utf-8 -*- import scrapy from scrapy.shell import inspect_response from scrapy.http import Request, FormRequest #from scrapy.selector import Selector import requests import time import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['zhihu.com'] start_urls = ['https://zhihu.com/'] referer_url = "https://www.zhihu.com/" login_url = "https://www.zhihu.com/login/email" check_login_url = "https://www.zhihu.com/settings/profile" login_formdata = { 'email': 'xxxx', 'password': 'eee' } headers = { "Accept": "*/*", "Accept-Encoding": "gzip,deflate", "Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4", "Connection": "keep-alive", "Upgrade-Insecure-Requests":"1", "Content-Type":"application/x-www-form-urlencoded; charset=UTF-8", "X-Requested-With":"XMLHttpRequest", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36" } def start_requests(self): print('start_requests') self.headers['Referer'] = self.referer_url self.headers['Host'] = "www.zhihu.com" return [Request("https://www.zhihu.com", meta = {'cookiejar' : 1}, headers = self.headers,callback = self.post_login)] def captcha_handler(self, response): t = str(int(time.time() * 1000)) captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login" with open("code.jpg",'wb') as w: req=requests.Session() p=req.get(url=captcha_url,headers=self.headers) w.write(p.content) code=input("請輸入驗證碼:") if not code: sys.exit(1) else: self.login_formdata["captcha"] = code def pre_signin_handler(self, response): #inspect_response(response,self) _xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract_first() self.headers["X-Xsrftoken"] = _xsrf self.login_formdata['_xsrf'] = _xsrf print(self.login_formdata['_xsrf']) self.captcha_handler(response) def post_login(self, response): print('post_login') self.pre_signin_handler(response) print(self.login_formdata) #FormRequeset.from_response是Scrapy提供的一個函數(shù), 用于post表單 return FormRequest("https://www.zhihu.com/login/email",meta={'cookiejar':response.meta['cookiejar']}, headers = self.headers, formdata = { '_xsrf':self.login_formdata['_xsrf'], 'password':'xxxx', 'email':'eeee', 'captcha':self.login_formdata["captcha"], }, callback = self.__check_login_status, ) ''' return [FormRequest.from_response(response, meta ={'cookiejar' : 1},#cookies = self.cookies, headers = self.headers, #注意此處的headers formdata = self.login_formdata, callback = self.__check_login_status, url = self.login_url, dont_filter = True )] ''' def __check_login_status(self, response): # '用來檢測是否登陸成功' print("----__check_login_status----") print(eval(response.text)) if json.loads(response.text)['r'] == 0: print("登錄成功") else: print("登錄失敗") #from scrapy.shell import inspect_response #inspect_response(response, self) yield Request(self.check_login_url, meta = {'cookiejar' : 1}, headers=self.headers,callback=self.parse_user_detail) def parse_user_detail(self, response): print("----parse_user_detail----") #with open('response_of_user_detil.html','wb') as file: # file.write(response.body) 用scrapy模擬登錄知乎會出現(xiàn)驗證碼失敗的情況,返回: {'data': {'captcha': '驗證碼會話無效 :(', 'name': 'ERR_VERIFY_CAPTCHA_SESSION_IN VALID'}, 'msg': '驗證碼會話無效 :(', 'r': 1, 'errcode': 1991829} 哪位大神有用scrapy模擬登錄過?清指點下,謝謝!
來源:開源中國
發(fā)布時間:2017-07-17 17:47:00
http://3.ly/BwTc Opera在Mac下逐步穩(wěn)定,崩潰減少了很多,對多點觸控的支持也一直在優(yōu)化。 新版在Google結果頁面中可以通過三指滑動翻頁,非常不錯。 準備將主瀏覽器轉為Opera.
來源:V2EX
發(fā)布時間:2020-08-27 18:47:39
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 問題描述:想抓取某類列表頁中的新聞詳細頁,其中遇見有的新聞詳細頁有翻頁,就是一長篇文章用分頁來隔開,有的則沒有。而我想儲存的mysql每行字段格式如下: domain, url, 標題, 簡介, 全部翻頁內容 這樣才能方便生成網頁,如果每個翻頁都是一行,那我想不到要怎么調用。我自己想的是能不能把所有翻頁正文都寫到item的一個key里,然后直接存到mysql中即可。mysql是實現(xiàn)了,但是spider.py總是不能實現(xiàn),卡了好幾天。。。還希望大家指點。 : ) 目前邏輯為:生成所有l(wèi)ist頁面翻頁 -> 捕獲新聞頁url -> 獲取指定數(shù)據, 提取翻頁鏈接回調給翻頁解析函數(shù) list頁面:http://www.cyone.com.cn/Article/chuangyegushi/pp/ 有翻頁的新聞詳細頁:http://www.cyone.com.cn/Article/Article_39110.html #List頁面中的第二條新聞 spider.py 如下: # -*- coding:utf-8 -*- import scrapy from seo.items import SeoItem from scrapy.http import Request #from scrapy.loader import ItemLoader class DmozSpider(scrapy.Spider): name = 'seo' start_urls = [] #獲取全部翻頁鏈接 for pn in range(1,16): url = 'http://www.cyone.com.cn/Article/chuangyegushi/pp/List_%s.html' % pn start_urls.append(url) #獲取每頁的新聞URL def parse(self,response): urls = response.xpath('//*[@class="box4_a"]/a/@href').extract() for url in urls: url_new = 'http://www.cyone.com.cn' + url print ">>newsurl: %s" % url_new yield Request(url_new,callback=self.parse_item) #抓取新聞詳細頁內容 def parse_item(self,response): item = SeoItem() item['domain'] = 'http://www.cyone.com.cn' item['url'] = response.request.url item['title'] = response.xpath('//*[@class="title4"]').extract()[0] item['summary'] = response.xpath('//*[@class="FIELDSET"]').extract()[0] item['content'] = response.xpath('//*[@class="left_co"]').extract()[0] pagelink = response.xpath('//*[@class="left_co"]//b/a/@href').extract() #獲取詳細頁翻頁鏈接 if not pagelink: self.log(">>> url: %s is not page!!" % response.url) item['page_content'] = "no" for link in pagelink: link_new = 'http://www.cyone.com.cn' + link print ">>>>>>>> link_new: %s" % link_new yield Request(link_new,callback=self.parse_page,meta={'item':item}) #制定parse_page為回調,并傳遞item def parse_page(self,response): item = response.meta['item'] item['page_content'] = response.xpath('//*[@class="left_co"]').extract()[0] yield item 寫入mysql的piplines.py: #coding:utf-8 import MySQLdb import json import codecs import re class MySQLStorePipeline(object): def __init__(self): self.conn = MySQLdb.connect("localhost", "root", "!QAZxsw2", "seo", charset="utf8", use_unicode=True) self.cursor = self.conn.cursor() def process_item(self, item, spider): try: self.cursor.execute("""INSERT INTO testnews (domain, url, title, summary, content, page_content) VALUES (%s, %s, %s, %s, %s, %s)""", (item['domain'], item['url'], item['title'], item['summary'], item['content'], item['page_content'])) self.conn.commit() except MySQLdb.Error, e: print "Error %d: %s" % (e.args[0], e.args[1]) return item
來源:開源中國
發(fā)布時間:2016-05-09 19:17:00
樓主是學生,購買 parallels 也就 42 刀一年。但是呢,vmware fusion 那邊有序列號可以直接用,間接等于免費了。樓主一般用 linux 比較多,windows 的話有 win to go,請問樓主這種情況有必要繼續(xù)購買 parallels 嗎?主要是不知道 vmware fusion 對比 parallels 現(xiàn)在的差距有多大。
來源:V2EX
發(fā)布時間:2020-08-27 18:47:24
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 我在用scrapy+redis實現(xiàn)一個簡單的分布式爬蟲,但運行后,一個爬蟲爬地快,一個爬蟲 爬地慢,我想請教各位如何實現(xiàn)redis對各個爬蟲獲取URL速度或者頻率的控制以達到均衡? 謝謝!
來源:開源中國
發(fā)布時間:2017-03-25 16:39:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 報錯日志如下: 2017-07-12 21:26:48 [scrapy.pipelines.files] WARNING: File (code: 403): Error downloading file from referred in 2017-07-12 21:26:48 [scrapy.core.scraper] WARNING: Dropped: Item contains no images 紅色部分,是自己寫的代碼 def item_completed(self, results, item, info): if item.__class__.__name__ != 'NewsImagesItem': return item image_path = [x['path'] for ok,x in results if ok] if not image_path: raise DropItem(' Item contains no images') imagePipiline 配置都沒有錯誤,日志里顯示圖片已經開始下載 圖片地址也沒有錯誤,部分圖片是可以下載下來的 另外:圖片地址在瀏覽器里多次嘗試也會出現(xiàn)403 Forbidden 錯誤 應該是網站的防爬策略,怎么解決呢
來源:開源中國
發(fā)布時間:2017-07-13 13:48:00
如:本文替換 [ github ] - [ GitHub ] 有時只想輸入小些英文,但總提示文本替換并自動替換,每次我都要按方向右鍵解決,多一步操作很麻煩,將右側 [自動糾正拼音] 關閉也無效(或者這個自動糾正拼音不是這個意思我理解錯?)。 不刪除該文本替換,請問有方法解決?
來源:V2EX
發(fā)布時間:2020-08-27 18:47:16
當前狀態(tài): 拿著一臺 MacBook Pro (Retina, 15-inch, Mid 2015)上下班,家里只有一臺 surface。 現(xiàn)在上班逐漸是文字工作比較多(文檔,wiki 什么的),代碼越來越少,大部分都是直接公司 PC 上搞定。 需求: 1.寫文檔 2.不要太重,上班擠地鐵要背著 選擇過程: 1.新款 pro ? 在新款 pro 開賣的時候(就是第一代有 bar 的 pro ),我去了 apple store,然后店員極度不建議買新款,建議舊款,主要理由是新款是 USB-C 接口,不方便 2.老款 pro 13 寸? 只有咸魚在買 3.新款 air ? 太貴,窮 4.老款 air ? 好像就是性能差,跑一跑代碼編譯什么的比較麻煩; 另外很多人說屏幕差,不是 retina,瞎眼屏,想了想在公司外接顯示器 此時,我的真面目暴露:16 年開始后,所有新款 macbook 黑。 沒錯,我不喜歡蝶式鍵盤,還有廚子加了 bar,改接口都讓我不太感冒。 另外,身邊個別用新 macbook 的用戶,會出現(xiàn)排線,花屏,鍵盤連擊等問題,不過可能是我?guī)е猩坨R看待新 pro,心里面放大了這些案例吧。老 air 沒聽說有啥問題,老 pro 只知道有涂層脫落。 最后決定買老款 air (沒錯,就是年薪百萬知乎瘋狂吐槽的上網本),官網翻新的 256G,7000 出頭,順便用了 24 期免息,一個月 300 塊不到。
來源:V2EX
發(fā)布時間:2020-08-27 18:46:59
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 登錄部分代碼如下: def start_requests(self,user,passw): yield scrapy.FormRequest( url = self.login_url, headers = self.headers, formdata={ 'action': 'chk', 'username':muser, 'password':mpassw, }, meta = { 'cookiejar': 1 }, callback = self.request_yue ) 現(xiàn)在好像只能運行一次start_requests 我是把user和passw寫死了,現(xiàn)在是傳參的方式,但是怎么多次調用start_requests以登錄不同賬號呢?
來源:開源中國
發(fā)布時間:2017-06-29 08:27:00
稍微看了下不同應用,按 1000 還是 1024 都有,甚至還有的直接給選項自行選擇,你們覺得哪種合適?
來源:V2EX
發(fā)布時間:2020-08-27 18:47:04
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 下面的代碼模擬登錄知乎,在登錄的時候沒有成功 check_login提示失敗: check_login { "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼會話無效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "驗證碼會話無效 :(" } 有沒有兄弟有成功的經驗,望指點一二,謝謝 # -*- coding: utf-8 -*- import scrapy import json class ZhihuSpider(scrapy.Spider): name = "zhihu" allowed_domains = ["www.zhihu.com"] headers = { 'Host': 'www.zhihu.com', 'Referer': 'http://www.zhihu.com', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36', } def start_requests(self): # 返回值必須是一個序列 return [scrapy.Request('http://www.zhihu.com/#signin', callback=self.login)] def login(self, response): print('-------') # 便于測試 _xsrf = response.xpath('//input[@name="_xsrf"]/ @value ').extract()[0] print(response.xpath('//input[@name="_xsrf"]/ @value ')) print(_xsrf) return [scrapy.FormRequest( url = 'http://www.zhihu.com/login/email', # 這是post的真實地址 formdata={ '_xsrf': _xsrf, 'email': 'xxxxxx', # email 'password': 'xxxxx', # password 'remember_me': 'true', }, headers=self.headers, callback=self.check_login, )] def check_login(self, response): print("check_login") print(response.text) print("check_login ---") if json.loads(response.text)['r'] == 0: ####這里提示登錄失敗 yield scrapy.Request( 'http://www.zhihu.com', headers=self.headers, callback=self.page_content, dont_filter=True, ) def page_content(self, response): with open('first_page.html', 'wb') as f: f.write(response.body) print('done')
來源:開源中國
發(fā)布時間:2017-06-26 17:24:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> Scrapy 是不是不能爬取https的網站?
來源:開源中國
發(fā)布時間:2017-02-12 19:02:00
用了多年黑果終于換成白的了現(xiàn)在 clion 可以遠程 debug 了 根本不考慮性能問題 我把原來黑蘋果的大母雞格掉裝 linux 了 體驗很舒適啊 啊 真香 還有這風扇為什么一點聲音都沒有 到底有沒有在轉的 今晚得開蓋檢查一下
來源:V2EX
發(fā)布時間:2020-08-27 18:46:44
https://www.apple.com/cn/shop/buy-mac/macbook-air https://ws1.sinaimg.cn/large/006OyZGQly1fwyh3n93upj30c60mfwg5.jpg 11 月 9 號開始發(fā)貨。有朋友打算入的嗎?我還挺心動的
來源:V2EX
發(fā)布時間:2020-08-27 18:46:37
HDC調試需求開發(fā)(15萬預算),能者速來!>>> Rails 框架,當出現(xiàn)瀏覽器路徑訪問錯誤時如何捕獲,處理? 清楚的答案 或 思路 或 參考資料 都可以。
來源:開源中國
發(fā)布時間:2016-04-09 14:24:07