亚洲av日韩av成人av,亚洲国产午夜精品理论片在线播放,亚洲国产成人片在线观看无码

科技資訊

科技學院

科技百科

科技書籍

網站大全

軟件大全

熱門排行

在開發(fā)測試環(huán)境如何合理使用docker？

你好！用docker運行paddle server,是不是只能運行一個模型的serving

docker鏡像中mongo如何和本地mongo連通，數(shù)據同步

Docker容器內的SpringBoot應用發(fā)不出郵件

搞錯了文件，導致docker容器啟動不了，怎么才能刪除錯誤文件？

eureka Service 部署到docker中的tomcat里面，訪問404

Docker掛載主機文件一致性問題

Xtrabackup8 對docker中容器的mysql備份

關于jqm popup窗口問題

手機網站在iPhone和Andriod的position:fixed替代方案

求推薦一個適合開發(fā)的，連 iMac 的機械鍵盤。

如題，poker2連iMac各種斷連，得拔了重插，非常難受。而iMac自帶的藍牙鍵盤鼠標，難用就一個字。

來源：V2EX

發(fā)布時間：2020-08-27 18:50:05

springboot在寫單元測試的時候怎才能不創(chuàng)建真實的連接mock rabbitMQ

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 自己的項目在單元測試很多的情況下跑覆蓋率時在MAC機器上100%會出現(xiàn)oom，以為創(chuàng)建的線程數(shù)超出了系統(tǒng)限制。怎么才能夠降低創(chuàng)建的線程數(shù)量？我看單元測試日志會創(chuàng)建真實的連接去連接MQ，這樣每一個class會創(chuàng)建幾個連接，能不能把這個rabbitMQ連接在跑單元測試的時候mock掉，有沒有什么辦法？

來源：開源中國

發(fā)布時間：2020-04-02 11:33:00

SpringBoot在Junit中回滾的問題？

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 測試發(fā)現(xiàn)第一個方法會正常回滾，第二個方法就不會回滾，請問這是為什么呢？

來源：開源中國

發(fā)布時間：2018-04-10 10:59:00

關于 mac 維修后的保修問題， apple store 與官網說法不一樣啊，有了解的兄弟指點下唄

apple也是不省心的主兒2012年買的imac，到這個月底三年期，還好當初買了care，前幾天黑屏，然后就去apple store送修了，現(xiàn)在修好了，看維修單：主板、顯卡、顯示屏、外屏玻璃和人工報價9千出頭，我這機器當初買才1w2多，讓我對后續(xù)維修充滿恐懼。現(xiàn)在問題來了，這換的4個部件到底可以保修多久，是apple store說的90天還是官網說的主要部件2年非主要部件90天？還有要吐槽一下，臺式機2年多出現(xiàn)這么嚴重的問題也算少見吧，這要是沒買care，完全就是坑啊

來源：V2EX

發(fā)布時間：2020-08-27 18:49:39

spring cloud 項目中，如何隔離本地測試配置和研發(fā)環(huán)境配置，達到快速執(zhí)行集成測試的目的?

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 背景描述：在開發(fā)分支中，我們的boostrap.yml配置里邊配置了注冊中心、spring cloud config相關配置。連接注冊中心和遠程配置中心以及相應初始化，會讓測試執(zhí)行效率大為下降。問題：但是在跑本地單元測試或者繼承測試時，我希望可以忽略bootstrap.yml的配置。該怎么辦？補充：在非spring cloud的項目中，通過profile和application-test.yml可以很方便的實現(xiàn)隔離，但spring cloud 的bootstrap.yml中的配置，實在是不知道如何處理。如果單獨開一個本地開發(fā)調試分支，提交代碼時還得頻繁切換分支，以防調試環(huán)境的代碼合并到正式分支下。希望能在spring cloud 的項目中，能迅速地執(zhí)行集成測試，并且不影響代碼開發(fā)和提交。

來源：開源中國

發(fā)布時間：2019-06-23 14:09:00

maven install 報錯了

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> .apache.maven.surefire.util.SurefireReflectionException: java.lang.reflect.InvocationTargetException; nested exception is java.lang.reflect.InvocationTargetException: null java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.maven.surefire.util.ReflectionUtils.invokeMethodWithArray(ReflectionUtils.java:189) at org.apache.maven.surefire.booter.ProviderFactory$ProviderProxy.invoke(ProviderFactory.java:165) at org.apache.maven.surefire.booter.ProviderFactory.invokeProvider(ProviderFactory.java:85) at org.apache.maven.surefire.booter.ForkedBooter.runSuitesInProcess(ForkedBooter.java:115) at org.apache.maven.surefire.booter.ForkedBooter.main(ForkedBooter.java:75) Caused by: java.lang.NoClassDefFoundError: Test at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at org.apache.maven.surefire.util.ReflectionUtils.tryGetMethod(ReflectionUtils.java:57) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.isSuiteOnly(JUnit3TestChecker.java:64) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.isValidJUnit3Test(JUnit3TestChecker.java:59) at org.apache.maven.surefire.common.junit3.JUnit3TestChecker.accept(JUnit3TestChecker.java:54) at org.apache.maven.surefire.common.junit4.JUnit4TestChecker.accept(JUnit4TestChecker.java:51) at org.apache.maven.surefire.util.DefaultScanResult.applyFilter(DefaultScanResult.java:97) at org.apache.maven.surefire.junit4.JUnit4Provider.scanClassPath(JUnit4Provider.java:194) at org.apache.maven.surefire.junit4.JUnit4Provider.invoke(JUnit4Provider.java:92) ... 9 more Caused by: java.lang.ClassNotFoundException: Test at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 22 more

來源：開源中國

發(fā)布時間：2019-03-19 11:14:00

iMac 5k 27 有必要上 AMD Radeon R9 M290X 4GB?

看了官網給的低配用的是AMD Radeon R9 M290, 2GB. 平時就是看看視頻, 寫點文字和代碼啥的. 高手解讀下. 謝謝@

來源：V2EX

發(fā)布時間：2020-08-27 18:49:29

有沒有外接顯示器的管理工具?

因為工作需要,有時候需要連著一個外接顯示器 (Dell), 但是大部分時間不想去使用這個外界顯示器.嘗試過關閉,關電源 etc, 但是apple 默認還是把信號給輸出給外界顯示器. 具體表現(xiàn)為能移動鼠標到已經關閉的顯示器 (坑爹啊), 有沒有軟件,來管理這個.

來源：V2EX

發(fā)布時間：2020-08-27 18:49:24

spring集成junit4遇到一個問題，哪位大神了解

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 不好意思，又做伸手黨了，這個問題我沒找到原因，不知道大神們有沒有遇到過 spring集成junit4報錯如下: 翻譯之后大意是是不是不能識別${jdbc.url}這句話呀，這個是配置在spring.xml中的，而${jdbc.url}這個就是加載的jdbc.properties里的數(shù)據庫配置，我看這個配置沒啥問題啊，怎么就不行呢，我的測試類是這樣的：是缺少什么嗎？我用的是MyBatis接口綁定開發(fā) ，沒有dao實現(xiàn)類那種，跟這個沒關系吧，哪位大神指點迷津一下

來源：開源中國

發(fā)布時間：2019-03-08 16:43:00

junit如何調試java web項目，在不用任何框架下

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> junit如何調試java web項目，在不用任何框架下

來源：開源中國

發(fā)布時間：2019-02-06 12:16:00

maven子模塊（SpringBoot）存在依賴，如何做junit單元測試？

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 如果沒有多個模塊，十分簡單，加兩個注解就好了: @RunWith(SpringRunner.class) @SpringBootTest 但在多模塊下這么做會報找不到Spring上下文的錯誤。查了各種資料，但還沒找到可行的辦法。網上流傳的有一定可行性的方法，是每個模塊都各自寫一個測試配置類。但在測試的功能需要使用其余模塊的配置（properties文件和Configuration類）時，依然會報錯。比如說common模塊的配置類和配置文件，有數(shù)據庫連接等信息；而user模塊的功能測試需要用到。跑程序時沒問題，但單元測試時該如何獲取其余模塊的配置？

來源：開源中國

發(fā)布時間：2018-08-14 22:56:00

spring boot測試報Failed to load ApplicationContext

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 在Spring Boot中使用Junit進行測試，測試代碼如下： @RunWith(SpringJUnit4ClassRunner.class) @SpringBootTest(classes = WebPortalApplication.class) public class OTSLogDaoTest { @Autowired OTSLogDao otsLogDao; @Test public void getTrackInfo() throws Exception { List trackInfo = otsLogDao.getTrackInfo(new Date()); } } 結果運行報錯，報錯如下： java.lang.IllegalStateException: Failed to load ApplicationContext at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:124) at org.springframework.test.context.support.DefaultTestContext.getApplicationContext(DefaultTestContext.java:83) at org.springframework.test.context.web.ServletTestExecutionListener.setUpRequestContextIfNecessary(ServletTestExecutionListener.java:189) at org.springframework.test.context.web.ServletTestExecutionListener.prepareTestInstance(ServletTestExecutionListener.java:131) at org.springframework.test.context.TestContextManager.prepareTestInstance(TestContextManager.java:230) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.createTest(SpringJUnit4ClassRunner.java:228) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner$1.runReflectiveCall(SpringJUnit4ClassRunner.java:287) at org.junit.internal.runners.model.ReflectiveCallable.run(ReflectiveCallable.java:12) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.methodBlock(SpringJUnit4ClassRunner.java:289) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.runChild(SpringJUnit4ClassRunner.java:247) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.runChild(SpringJUnit4ClassRunner.java:94) at org.junit.runners.ParentRunner$3.run(ParentRunner.java:290) at org.junit.runners.ParentRunner$1.schedule(ParentRunner.java:71) at org.junit.runners.ParentRunner.runChildren(ParentRunner.java:288) at org.junit.runners.ParentRunner.access$000(ParentRunner.java:58) at org.junit.runners.ParentRunner$2.evaluate(ParentRunner.java:268) at org.springframework.test.context.junit4.statements.RunBeforeTestClassCallbacks.evaluate(RunBeforeTestClassCallbacks.java:61) at org.springframework.test.context.junit4.statements.RunAfterTestClassCallbacks.evaluate(RunAfterTestClassCallbacks.java:70) at org.junit.runners.ParentRunner.run(ParentRunner.java:363) at org.springframework.test.context.junit4.SpringJUnit4ClassRunner.run(SpringJUnit4ClassRunner.java:191) at org.junit.runner.JUnitCore.run(JUnitCore.java:137) at com.intellij.junit4.JUnit4IdeaTestRunner.startRunnerWithArgs(JUnit4IdeaTestRunner.java:68) at com.intellij.rt.execution.junit.IdeaTestRunner$Repeater.startRunnerWithArgs(IdeaTestRunner.java:51) at com.intellij.rt.execution.junit.JUnitStarter.prepareStreamsAndStart(JUnitStarter.java:237) at com.intellij.rt.execution.junit.JUnitStarter.main(JUnitStarter.java:70) Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'serverEndpointExporter' defined in class path resource [com/ipubtrans/wp/websocket/WebSocketConfig.class]: Invocation of init method failed; nested exception is java.lang.IllegalStateException: javax.websocket.server.ServerContainer not available at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1628) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.doCreateBean(AbstractAutowireCapableBeanFactory.java:555) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.createBean(AbstractAutowireCapableBeanFactory.java:483) at org.springframework.beans.factory.support.AbstractBeanFactory$1.getObject(AbstractBeanFactory.java:306) at org.springframework.beans.factory.support.DefaultSingletonBeanRegistry.getSingleton(DefaultSingletonBeanRegistry.java:230) at org.springframework.beans.factory.support.AbstractBeanFactory.doGetBean(AbstractBeanFactory.java:302) at org.springframework.beans.factory.support.AbstractBeanFactory.getBean(AbstractBeanFactory.java:197) at org.springframework.beans.factory.support.DefaultListableBeanFactory.preInstantiateSingletons(DefaultListableBeanFactory.java:761) at org.springframework.context.support.AbstractApplicationContext.finishBeanFactoryInitialization(AbstractApplicationContext.java:867) at org.springframework.context.support.AbstractApplicationContext.refresh(AbstractApplicationContext.java:543) at org.springframework.boot.SpringApplication.refresh(SpringApplication.java:693) at org.springframework.boot.SpringApplication.refreshContext(SpringApplication.java:360) at org.springframework.boot.SpringApplication.run(SpringApplication.java:303) at org.springframework.boot.test.context.SpringBootContextLoader.loadContext(SpringBootContextLoader.java:120) at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContextInternal(DefaultCacheAwareContextLoaderDelegate.java:98) at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:116) ... 24 more Caused by: java.lang.IllegalStateException: javax.websocket.server.ServerContainer not available at org.springframework.util.Assert.state(Assert.java:70) at org.springframework.web.socket.server.standard.ServerEndpointExporter.afterPropertiesSet(ServerEndpointExporter.java:102) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.invokeInitMethods(AbstractAutowireCapableBeanFactory.java:1687) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1624) ... 39 more 報錯的創(chuàng)建失敗的類如下： @Configuration public class WebSocketConfig { @Bean public ServerEndpointExporter serverEndpointExporter() { return new ServerEndpointExporter(); } } 問題在于：直接運行程序不會報錯測試時才報錯

來源：開源中國

發(fā)布時間：2017-09-06 11:32:00

關于爬蟲如何突破網站對爬蟲的限制

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 現(xiàn)在，我正在做一個網站爬蟲，但是應該是被一個網站視為攻擊了吧！我用瀏覽器訪問這個網站，顯示正常，但是程序訪問，返回的是電信的那個域名錯誤；為了躲過限制： 1.采用了禁用cookie； 2.訪問google cache（由于學校上午必須安裝學校的客戶端，使用vpn一會后，就把我鏈接斷了）; 3.使用torproject（tor被封了，要想使用需要使用vpn）； 4.改變user-aget; 請問各位大神，還有什么方法可以嘗試? 悲劇的是現(xiàn)在瀏覽球也返回 http://sddnserror7.wo.com.cn:8080/issueunziped/baidusd121009/self0.jsp?UserUrl=www.woaidu.org 大神求指導

來源：開源中國

發(fā)布時間：2013-04-01 14:31:00

爬取京東的網站： 'Response' object has no attribute 'body_as_unicode'

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> rt，使用scrapy shell測試語句：scrapy shell "http://list.jd.com/list.html?cat=670,671,2694" 也會出現(xiàn)exceptions.AttributeError: 'Response' object has no attribute 'body_as_unicode'這個問題，之前爬了幾個其他網站都可以，請教一下這是什么問題呢？

來源：開源中國

發(fā)布時間：2014-07-31 10:17:00

Scrapy：在pipeline的process_item中的一個并發(fā)/線程安全方面的問題

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 如，一個將數(shù)據保存到excel文件的管道類，作為一個通用類，不寫死Item類的判斷過程，用dict來map類名和文件的關系， outputs = {‘AAAAAItem’: dict(wb=wb, ws=ws), 'BBBBBItem': dict(wb=wb, ws=ws), ...} 所以對于這個dict來說，只有來了一個新的沒見過的Item實例才會初始化與之對應的文件。 def process_item(self, item, spider): output = self.outputs.get(item.item_name) # item_name換成type(item)也可以哈哈，一樣滴 if not output: # create file # ... output = dict(wb=wb, ws=ws) self.outputs[item.item_name] = output output['ws'].append([...]) return item 那么問題來了，Item們并發(fā)懟到這個pipeline里，在第一次的創(chuàng)建文件的過程中，會有線程安全之類的問題嗎？要加個雙重檢驗鎖咩？（懶得看它的源碼是怎么調pipeline&自己些測試）

來源：開源中國

發(fā)布時間：2019-02-10 17:35:00

大家在Mac OS下用什么軟件寫稿件？

Windows下無庸置疑是word。那么在Mac OS下呢，我試了下Pages,似乎并不是那么好用，一切都需要重新學習。而且發(fā)給別人的話，兼容性問題是如何解決的呢。試過另外款軟件Bean，很小巧，但又總覺得欠缺了點什么。大家是如何選擇的？

來源：V2EX

發(fā)布時間：2020-08-27 18:48:34

請教關于iWork'09中Pages的一個使用問題

以前在word中寫文檔的時候，習慣插入一個doc對象，實現(xiàn)一個文檔內嵌多個子文檔，這樣管理和傳輸都比較方便，磁盤上需要處理的只是一個文件。最近用Pages，昨天也有這個需求，結果只發(fā)現(xiàn)可以通過超鏈接打開另一Pages文檔，沒找到可以插入內建對象的功能。請教下各位是本身沒有這個功能呢還是？

來源：V2EX

發(fā)布時間：2020-08-27 18:48:29

scrapy怎么多次向一個url請求信息，然后獲取返回數(shù)據

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 大家好，我剛開始學習使用scrapy，希望能請教一個問題。這是我的spiders文件夾中爬蟲文件的代碼 class PabhSpider(CrawlSpider): name = 'pabh' allowed_domains = ['xxx'] def start_requests(self): url = 'http://xxx' num1 = '01' formdata = { "depart":num, "years":'2014' } return [FormRequest(url=url,formdata=formdata,method='get',callback=self.parse)] def parse(self, response): item = XXXItem() hxs = Selector(response) item['bh'] = hxs.xpath('/html/body/form/p/font/select[3]/option/@value').extract() yield item num = ['02','03','04','05','06','07','08','09','10','11','12','13','14','21','31','40','51','61'] for x in num: url = 'http://xxx' formdata={ "depart":x, "years":'2014' } yield FormRequest(url=url,formdata=formdata,method='get',callback=self.parse) 我現(xiàn)在是這樣寫的。我想不停的向一個url發(fā)送不同的get請求，然后獲得返回的數(shù)據，現(xiàn)在這樣寫，返回的很多數(shù)據都是重復的，而且不一定每次都能請求成功返回，有時候會發(fā)送同一個get參數(shù)兩次。

來源：開源中國

發(fā)布時間：2014-11-04 21:52:00

關于python獲取請求后的XHR數(shù)據

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 本人正在爬取一個網站，輸入網站地址后返回的是異步的ajax請求，我想獲取所有的這些xhr以及它們的Form Data 請問有沒有辦法呢。困擾一天了不知道怎么辦？求大神解救一下，用的是python 以及Scrap'y

來源：開源中國

發(fā)布時間：2018-08-29 22:49:00

這里還有堅持使用上一代水果鍵盤的同學么？

不知道有沒有辦法設定新款鍵盤上面的多媒體鍵？(主要是可以隨時控制iTunes)說實話，那三個按鍵太有用了！

來源：V2EX

發(fā)布時間：2020-08-27 18:48:15

python scrapy 多個不同的頁面數(shù)據組合，管道被調用多次，導致字典報錯keyerror的問題

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 爬蟲源碼 def parse(self, response): data = json.loads(response.text)['result']['data'] if data is None: return for str in data: it_item = SinastarItem() it_item['userid'] = str['_id'] it_item['name'] = str['title'] it_item['starurl'] = str['url'] it_item['pic'] = str['pic'] if str['birth_year'] != '' and str['birth_month'] != '' and str['birth_day'] != '': it_item['birthday'] = str['birth_year'] + "/" + str['birth_month'] + "/" + str['birth_day'] else: it_item['birthday'] = '' it_item['xingzuo'] = str['astrology'] it_item['sex'] = str['gender'] it_item['profession'] = str['profession'] it_item['area'] = str['nationality'] it_item['height'] = str['height'] if not it_item['userid'] is None: intro_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=intro&id=' + it_item['userid'] base_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=base&id=' + it_item['userid'] photo_url = 'http://ent.sina.com.cn/ku/star_detail_index.d.html?type=photo&id=' + it_item['userid'] yield scrapy.Request(intro_url,callback=self.info_item,meta={'item':it_item,'type':'intro'}) yield scrapy.Request(base_url, callback=self.info_item, meta={'item': it_item,'type':'base'}) yield scrapy.Request(photo_url, callback=self.photo_item, meta={'item': it_item}) #寫真 def photo_item(self,response): item = response.meta['item'] photoji = response.xpath("http://*[@id='waterfall_roles']/li/a/img/@src").extract() ##取出寫真集 plen = len(photoji) if plen is not None and plen > 10: imgurl = random.sample(photoji, 10) ##隨機取list 10個數(shù) item['imgurl'] = ','.join(imgurl) else: if photoji is not None: item['imgurl'] = ','.join(photoji) else: item['imgurl'] = photoji return item ## 簡介 def info_item(self, response): item = response.meta['item'] infodata = response.xpath("http://div[@class='detail-base']/p/text()").extract() if response.meta['type'] == 'intro': ##簡介類型 item['intro'] = infodata else: item['base'] = infodata return item 管道Pipeline 源碼 def process_item(self, item, spider): data = dict(item) imgurl = data['imgurl'] base = data['base'] intro = data['intro'] userid = data['userid'] name = data['name'] sex = data['sex'] area = data['area'] xingzuo = data['xingzuo'] ##等于空 birthday = data['birthday'] ##等于空 height = data['height'] ##等于空 pic = data['pic'] profession = data['profession'] try: onlysql = " select * from tw_cms_article_star where userid ='%s'" % data['userid'] # 查重復id # 執(zhí)行sql語句 self.cur.execute(onlysql) # 是否有重復數(shù)據 repetition = self.cur.fetchone() # 重復 if repetition is not None: # 結果返回，已存在，則不插入 pass else: self.cur.execute("""insert into tw_cms_article_star (name,sex,area,xingzuo,birthday,height,pic,userid,intro,base,profession,imgurl) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s) """ % [name,sex,area,xingzuo,birthday,height,pic,userid,intro,base,profession,imgurl]) #self.cur.execute(insersql) # 提交sql語句 self.mydb.commit() self.cur.close() except Exception as error: # 出現(xiàn)錯誤時打印錯誤日志 logging.error(error) # 發(fā)生錯誤回滾 self.mydb.rollback() self.mydb.close() imgurl = data['imgurl'] base = data['base'] intro = data['intro'] 這三個變量，由于是初始抓取頁面分配到的參數(shù)，再抓下一層分配的數(shù)據實現(xiàn)的目的：把初始頁面抓到的數(shù)據+多個頁面的數(shù)據，集合在一起，一次性入庫。問題描述：現(xiàn)在就是初始抓到數(shù)據，print后有三個數(shù)組，數(shù)據是初始頁面的，還有其它頁面，這樣就導致第一次imgurl，base,intro都會不存在，keyerror，嘗試判斷不存在，還是一直報錯，導致入庫一直失敗求更好的解決方法~

來源：開源中國

發(fā)布時間：2018-07-24 15:29:00

iTunes 9.* UI 風格的變化

難道下一時代就是這樣的風格？總感覺不如以前的細膩，倒是頗有Win上iTunes的影子...難道和非64位有關聯(lián)？

來源：V2EX

發(fā)布時間：2020-08-27 18:48:07

scrapy 自動抓取下一頁的鏈接

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 我想要爬取搜狐新聞網址是： http://news.sohu.com/guoneixinwen.shtml 有很多頁需要爬取，按以往的一些網站，源碼會在下一頁按鈕的地方顯示出下一頁的href,然后我只要抓出這個href就可以爬到了。但上邊這個的下一頁是用js來跳轉的，不知道這種情況該如何處理呢? 上一頁下一頁末頁下邊是我原來的做法，該怎么改呢？ class CurrentPolitics(CrawlSpider): reload(sys) sys.setdefaultencoding('utf8') name = "Sohu_CurrentPolitics" #allowed_domains = ["http://news.sohu.com"] start_urls = [ ] def start_requests(self): for url in self.start_urls: yield Request(url) def __init__(self, **kwargs): path = "/CpsecSpiders/rules/sohu.xml" xmlpath = os.getcwd()+path print xmlpath DOMTree = xml.dom.minidom.parse(xmlpath) collection = DOMTree.documentElement spiders = collection.getElementsByTagName("spider") print spiders print '@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@' for spider in spiders: article_name1 = spider.getElementsByTagName('article_name')[0] self.article_name = article_name1.childNodes[0].data article_url1 = spider.getElementsByTagName('article_url')[0] self.article_url = article_url1.childNodes[0].data article_content1 = spider.getElementsByTagName('article_content')[0] self.article_content = article_content1.childNodes[0].data next_page_url1 = spider.getElementsByTagName('next_page_url')[0] self.next_page_url = next_page_url1.childNodes[0].data baseurl1 = spider.getElementsByTagName('base_url')[0] self.baseurl = baseurl1.childNodes[0].data article_author1 = spider.getElementsByTagName('article_author')[0] self.article_author = article_author1.childNodes[0].data article_time1 = spider.getElementsByTagName('article_time')[0] self.article_time = article_time1.childNodes[0].data article_click_num1 = spider.getElementsByTagName('article_click_num')[0] self.article_click_num = article_click_num1.childNodes[0].data article_reply_num1 = spider.getElementsByTagName('article_reply_num')[0] self.article_reply_num = article_reply_num1.childNodes[0].data start_url1 = spider.getElementsByTagName('start_url')[0] self.start_url = start_url1.childNodes[0].data self.start_urls = self.start_url.split(',') print self.start_urls #allowed_domains1 = spider.getElementsByTagName('allowed_domains')[0] #self.allowed_domains = allowed_domains1.childNodes[0].data def parse(self, response): #選擇器 sel = Selector(response) item = CpsecspidersItem() #文章url列表 article_url = sel.xpath(self.article_url).extract() #下一頁地址 next_page_url = sel.xpath(self.next_page_url).extract() for url in article_url: urll = urljoin(self.baseurl,url) request = scrapy.Request(urll,callback=self.parse_second) request.meta['item'] = item yield request #確認有沒有下一頁 if next_page_url[0]: print "next"+urljoin(self.baseurl,next_page_url[0]) request = scrapy.Request(urljoin(self.baseurl,next_page_url[0]),callback=self.parse) yield request def parse_second(self, response): content = '' sel = Selector(response) item = response.meta['item'] #文章信息采集 ####################################################################################################################### article_url = str(response.url) today_timestamp = sp.get_tody_timestamp() article_id = sp.hashForUrl(article_url) article_name = sel.xpath(self.article_name).extract() article_time = sel.xpath(self.article_time).extract() article_content = sel.xpath(self.article_content).extract() article_author = sel.xpath(self.article_author).extract() article_clik_num = sel.xpath(self.article_click_num).extract() article_reply_num = sel.xpath(self.article_reply_num).extract() 希望有大牛指點一下！ %3C/td%3E

來源：開源中國

發(fā)布時間：2015-08-17 21:04:00

scrapy動態(tài)的從redis隊列中獲取源，并啟動spider

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 需求：有個redis隊列，我需要從隊列中獲取數(shù)據（源相關的配置規(guī)則），然后加入到scrapy的spider中，并啟動。目前的解決方法：開啟了個守護線程，使用scrapy的CrawlerRunner來啟動。但是這樣在windows下運行正常，在linux下，twisted使用的epoll一定時間內沒有事件的話，dopoll方法進入無限等待狀態(tài)，加入新的爬蟲也不會爬取。求教大神們，一般這種需求怎么搞。

來源：開源中國

發(fā)布時間：2018-01-16 10:25:00

求助 scrapy 調試時可以看到數(shù)據爬去成功，但是命令行csv文件導出為空

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> python3.6 scrapy 1.4.0 斷點調試時可以看到數(shù)據，但是命令行導出csv文件為空。 spider文件： import scrapy import re from lxml import etree from scrapy.http import Request from dingdian.items import DingdianItem ######################################################################## class myspider(scrapy.Spider): """""" name= 'dingdian' #allow_domains =['x23us.com'] base_url ='http://www.23us.so/list/' #---------------------------------------------------------------------- def __init__(self): """Constructor""" #---------------------------------------------------------------------- def start_requests(self): """""" for i in range(1,2): #url =self.base_url +str(i)+'_1.html' url ='http://www.23us.so/list/1_1.html' yield Request(url,self.parse) #yield Request('http://www.x23us.com/quanben/1',self.parse) def parse(self,response): #print(response.url) #初始網址正確 #print(response.text) #pattern =re.compile('(.*?)') #pageIndex =re.findall(pattern, response) pageIndex= response.xpath('//a[@class="last"]/text()').extract() print(pageIndex) baseurl = str(response.url)[:-7] for num in range(1,int(pageIndex[0])-200): url =baseurl+'_'+str(num) +'.html' yield Request(url,callback=self.getname) #---------------------------------------------------------------------- def getname(self,response): """""" #contents= response.xpath('//a[@class="last"]/text()').extract() #print(pageIndex) tds =response.xpath('//tr[@bgcolor="#FFFFFF"]') for td in tds: novelname = td.xpath('./td[@class="L"]/a/text()').extract() novelurl =td.xpath('./td[@class="L"]/a/@href')[0].extract() yield Request(novelurl, callback=self.getcontent, meta={'name':novelname, 'url':novelname}) #---------------------------------------------------------------------- def getcontent(self,response): """""" item = DingdianItem() item['name']=str(response.meta['name']) item['novelurl']=response.url #novelurl = response.url tds =response.xpath('//table[@id="at"]') for td in tds: #author =td.xpath('//tr[1]/td[2]/text()').extract() item['author'] =td.xpath('//tr[1]/td[2]/text()').extract() #serialstatus=td.xpath('//tr[1]/td[3]/text()').extract() item['serialstatus'] =td.xpath('//tr[1]/td[3]/text()').extract() #lastupdatatime =td.xpath('//tr[2]/td[3]/text()').extract() item['lastupdatatime'] =td.xpath('//tr[2]/td[3]/text()').extract() #like = td.xpath('//tr[2]/td[1]/text()').extract() item['like'] =td.xpath('//tr[2]/td[1]/text()').extract() print(author,novelurl,serialstatus,lastupdatatime,like,) #item['author'] = response.xpath('//tbody/tr/td[1]') yield item # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals import json import codecs import sys class DingdianPipeline(object): #---------------------------------------------------------------------- def __init__(self): self.file = codecs.open('dingdian.json', mode='wb', encoding='utf-8') def process_item(self, item, spider): pass ##link_url = item['link_url'] #file_name = link_url[7:-6].replace('/','_') #file_name += ".txt" #fp = open("dingdianspider.txt", 'w') #fp.write(item['name'],item['author'],item['novelurl'],item['serialstatus'],r"\n") #fp.close() #return item # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals import json import codecs import sys class DingdianPipeline(object): #---------------------------------------------------------------------- def __init__(self): self.file = codecs.open('dingdian.json', mode='wb', encoding='utf-8') def process_item(self, item, spider): pass ##link_url = item['link_url'] #file_name = link_url[7:-6].replace('/','_') #file_name += ".txt" #fp = open("dingdianspider.txt", 'w') #fp.write(item['name'],item['author'],item['novelurl'],item['serialstatus'],r"\n") #fp.close() #return item item文件： # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class DingdianItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() author = scrapy.Field() novelurl =scrapy.Field() serialstatus =scrapy.Field() lastupdatatime=scrapy.Field() like =scrapy.Field() #name_id =scrapy.Field()

來源：開源中國

發(fā)布時間：2017-09-02 09:03:00

scrapy 模擬登錄知乎遇到驗證碼不通過的問題

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> # -*- coding: utf-8 -*- import scrapy from scrapy.shell import inspect_response from scrapy.http import Request, FormRequest #from scrapy.selector import Selector import requests import time import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['zhihu.com'] start_urls = ['https://zhihu.com/'] referer_url = "https://www.zhihu.com/" login_url = "https://www.zhihu.com/login/email" check_login_url = "https://www.zhihu.com/settings/profile" login_formdata = { 'email': 'xxxx', 'password': 'eee' } headers = { "Accept": "*/*", "Accept-Encoding": "gzip,deflate", "Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4", "Connection": "keep-alive", "Upgrade-Insecure-Requests":"1", "Content-Type":"application/x-www-form-urlencoded; charset=UTF-8", "X-Requested-With":"XMLHttpRequest", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36" } def start_requests(self): print('start_requests') self.headers['Referer'] = self.referer_url self.headers['Host'] = "www.zhihu.com" return [Request("https://www.zhihu.com", meta = {'cookiejar' : 1}, headers = self.headers,callback = self.post_login)] def captcha_handler(self, response): t = str(int(time.time() * 1000)) captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login" with open("code.jpg",'wb') as w: req=requests.Session() p=req.get(url=captcha_url,headers=self.headers) w.write(p.content) code=input("請輸入驗證碼:") if not code: sys.exit(1) else: self.login_formdata["captcha"] = code def pre_signin_handler(self, response): #inspect_response(response,self) _xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract_first() self.headers["X-Xsrftoken"] = _xsrf self.login_formdata['_xsrf'] = _xsrf print(self.login_formdata['_xsrf']) self.captcha_handler(response) def post_login(self, response): print('post_login') self.pre_signin_handler(response) print(self.login_formdata) #FormRequeset.from_response是Scrapy提供的一個函數(shù), 用于post表單 return FormRequest("https://www.zhihu.com/login/email",meta={'cookiejar':response.meta['cookiejar']}, headers = self.headers, formdata = { '_xsrf':self.login_formdata['_xsrf'], 'password':'xxxx', 'email':'eeee', 'captcha':self.login_formdata["captcha"], }, callback = self.__check_login_status, ) ''' return [FormRequest.from_response(response, meta ={'cookiejar' : 1},#cookies = self.cookies, headers = self.headers, #注意此處的headers formdata = self.login_formdata, callback = self.__check_login_status, url = self.login_url, dont_filter = True )] ''' def __check_login_status(self, response): # '用來檢測是否登陸成功' print("----__check_login_status----") print(eval(response.text)) if json.loads(response.text)['r'] == 0: print("登錄成功") else: print("登錄失敗") #from scrapy.shell import inspect_response #inspect_response(response, self) yield Request(self.check_login_url, meta = {'cookiejar' : 1}, headers=self.headers,callback=self.parse_user_detail) def parse_user_detail(self, response): print("----parse_user_detail----") #with open('response_of_user_detil.html','wb') as file: # file.write(response.body) 用scrapy模擬登錄知乎會出現(xiàn)驗證碼失敗的情況，返回： {'data': {'captcha': '驗證碼會話無效 :(', 'name': 'ERR_VERIFY_CAPTCHA_SESSION_IN VALID'}, 'msg': '驗證碼會話無效 :(', 'r': 1, 'errcode': 1991829} 哪位大神有用scrapy模擬登錄過？清指點下，謝謝！

來源：開源中國

發(fā)布時間：2017-07-17 17:47:00

Opera For Mac 10.52

http://3.ly/BwTc Opera在Mac下逐步穩(wěn)定，崩潰減少了很多，對多點觸控的支持也一直在優(yōu)化。新版在Google結果頁面中可以通過三指滑動翻頁，非常不錯。準備將主瀏覽器轉為Opera.

來源：V2EX

發(fā)布時間：2020-08-27 18:47:39

scrapy爬取list頁面下級詳細頁的翻頁，及mysql相關

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 問題描述：想抓取某類列表頁中的新聞詳細頁，其中遇見有的新聞詳細頁有翻頁，就是一長篇文章用分頁來隔開，有的則沒有。而我想儲存的mysql每行字段格式如下： domain, url, 標題, 簡介, 全部翻頁內容這樣才能方便生成網頁，如果每個翻頁都是一行，那我想不到要怎么調用。我自己想的是能不能把所有翻頁正文都寫到item的一個key里，然后直接存到mysql中即可。mysql是實現(xiàn)了，但是spider.py總是不能實現(xiàn)，卡了好幾天。。。還希望大家指點。 : ) 目前邏輯為：生成所有l(wèi)ist頁面翻頁 -> 捕獲新聞頁url -> 獲取指定數(shù)據，提取翻頁鏈接回調給翻頁解析函數(shù) list頁面：http://www.cyone.com.cn/Article/chuangyegushi/pp/ 有翻頁的新聞詳細頁：http://www.cyone.com.cn/Article/Article_39110.html #List頁面中的第二條新聞 spider.py 如下： # -*- coding:utf-8 -*- import scrapy from seo.items import SeoItem from scrapy.http import Request #from scrapy.loader import ItemLoader class DmozSpider(scrapy.Spider): name = 'seo' start_urls = [] #獲取全部翻頁鏈接 for pn in range(1,16): url = 'http://www.cyone.com.cn/Article/chuangyegushi/pp/List_%s.html' % pn start_urls.append(url) #獲取每頁的新聞URL def parse(self,response): urls = response.xpath('//*[@class="box4_a"]/a/@href').extract() for url in urls: url_new = 'http://www.cyone.com.cn' + url print ">>newsurl: %s" % url_new yield Request(url_new,callback=self.parse_item) #抓取新聞詳細頁內容 def parse_item(self,response): item = SeoItem() item['domain'] = 'http://www.cyone.com.cn' item['url'] = response.request.url item['title'] = response.xpath('//*[@class="title4"]').extract()[0] item['summary'] = response.xpath('//*[@class="FIELDSET"]').extract()[0] item['content'] = response.xpath('//*[@class="left_co"]').extract()[0] pagelink = response.xpath('//*[@class="left_co"]//b/a/@href').extract() #獲取詳細頁翻頁鏈接 if not pagelink: self.log(">>> url: %s is not page!!" % response.url) item['page_content'] = "no" for link in pagelink: link_new = 'http://www.cyone.com.cn' + link print ">>>>>>>> link_new: %s" % link_new yield Request(link_new,callback=self.parse_page,meta={'item':item}) #制定parse_page為回調，并傳遞item def parse_page(self,response): item = response.meta['item'] item['page_content'] = response.xpath('//*[@class="left_co"]').extract()[0] yield item 寫入mysql的piplines.py： #coding:utf-8 import MySQLdb import json import codecs import re class MySQLStorePipeline(object): def __init__(self): self.conn = MySQLdb.connect("localhost", "root", "!QAZxsw2", "seo", charset="utf8", use_unicode=True) self.cursor = self.conn.cursor() def process_item(self, item, spider): try: self.cursor.execute("""INSERT INTO testnews (domain, url, title, summary, content, page_content) VALUES (%s, %s, %s, %s, %s, %s)""", (item['domain'], item['url'], item['title'], item['summary'], item['content'], item['page_content'])) self.conn.commit() except MySQLdb.Error, e: print "Error %d: %s" % (e.args[0], e.args[1]) return item

來源：開源中國

發(fā)布時間：2016-05-09 19:17:00

有必要繼續(xù)購買 parallels 嗎？

樓主是學生，購買 parallels 也就 42 刀一年。但是呢，vmware fusion 那邊有序列號可以直接用，間接等于免費了。樓主一般用 linux 比較多，windows 的話有 win to go，請問樓主這種情況有必要繼續(xù)購買 parallels 嗎？主要是不知道 vmware fusion 對比 parallels 現(xiàn)在的差距有多大。

來源：V2EX

發(fā)布時間：2020-08-27 18:47:24

在scrapy+redis實現(xiàn)分布式爬蟲中，如何實現(xiàn)對各個分布的爬蟲獲取URL的均衡

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 我在用scrapy+redis實現(xiàn)一個簡單的分布式爬蟲，但運行后，一個爬蟲爬地快，一個爬蟲爬地慢，我想請教各位如何實現(xiàn)redis對各個爬蟲獲取URL速度或者頻率的控制以達到均衡？謝謝！

來源：開源中國

發(fā)布時間：2017-03-25 16:39:00

scrapy 下載百度新聞圖片錯誤

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 報錯日志如下： 2017-07-12 21:26:48 [scrapy.pipelines.files] WARNING: File (code: 403): Error downloading file from referred in 2017-07-12 21:26:48 [scrapy.core.scraper] WARNING: Dropped: Item contains no images 紅色部分，是自己寫的代碼 def item_completed(self, results, item, info): if item.__class__.__name__ != 'NewsImagesItem': return item image_path = [x['path'] for ok,x in results if ok] if not image_path: raise DropItem(' Item contains no images') imagePipiline 配置都沒有錯誤，日志里顯示圖片已經開始下載圖片地址也沒有錯誤，部分圖片是可以下載下來的另外：圖片地址在瀏覽器里多次嘗試也會出現(xiàn)403 Forbidden 錯誤應該是網站的防爬策略，怎么解決呢

來源：開源中國

發(fā)布時間：2017-07-13 13:48:00

macOS 自帶輸入 [自動糾正拼音] 為何無效？

如：本文替換 [ github ] - [ GitHub ] 有時只想輸入小些英文，但總提示文本替換并自動替換，每次我都要按方向右鍵解決，多一步操作很麻煩，將右側 [自動糾正拼音] 關閉也無效（或者這個自動糾正拼音不是這個意思我理解錯？）。不刪除該文本替換，請問有方法解決？

來源：V2EX

發(fā)布時間：2020-08-27 18:47:16

迫于貧窮，買了老款 air

當前狀態(tài)：拿著一臺 MacBook Pro (Retina, 15-inch, Mid 2015)上下班，家里只有一臺 surface。現(xiàn)在上班逐漸是文字工作比較多（文檔，wiki 什么的），代碼越來越少，大部分都是直接公司 PC 上搞定。需求： 1.寫文檔 2.不要太重，上班擠地鐵要背著選擇過程： 1.新款 pro ？在新款 pro 開賣的時候（就是第一代有 bar 的 pro ），我去了 apple store，然后店員極度不建議買新款，建議舊款，主要理由是新款是 USB-C 接口，不方便 2.老款 pro 13 寸？只有咸魚在買 3.新款 air ？太貴，窮 4.老款 air ？好像就是性能差，跑一跑代碼編譯什么的比較麻煩；另外很多人說屏幕差，不是 retina，瞎眼屏，想了想在公司外接顯示器此時，我的真面目暴露：16 年開始后，所有新款 macbook 黑。沒錯，我不喜歡蝶式鍵盤，還有廚子加了 bar，改接口都讓我不太感冒。另外，身邊個別用新 macbook 的用戶，會出現(xiàn)排線，花屏，鍵盤連擊等問題，不過可能是我?guī)е猩坨R看待新 pro，心里面放大了這些案例吧。老 air 沒聽說有啥問題，老 pro 只知道有涂層脫落。最后決定買老款 air （沒錯，就是年薪百萬知乎瘋狂吐槽的上網本），官網翻新的 256G，7000 出頭，順便用了 24 期免息，一個月 300 塊不到。

來源：V2EX

發(fā)布時間：2020-08-27 18:46:59

python Scrapy同一個站點如何登錄多個賬號

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 登錄部分代碼如下： def start_requests(self,user,passw): yield scrapy.FormRequest( url = self.login_url, headers = self.headers, formdata={ 'action': 'chk', 'username':muser, 'password':mpassw, }, meta = { 'cookiejar': 1 }, callback = self.request_yue ) 現(xiàn)在好像只能運行一次start_requests 我是把user和passw寫死了，現(xiàn)在是傳參的方式，但是怎么多次調用start_requests以登錄不同賬號呢？

來源：開源中國

發(fā)布時間：2017-06-29 08:27:00

才發(fā)現(xiàn) Mac 上的 finder 是按 1000b=1kb 計算文件大小的

稍微看了下不同應用，按 1000 還是 1024 都有，甚至還有的直接給選項自行選擇，你們覺得哪種合適？

來源：V2EX

發(fā)布時間：2020-08-27 18:47:04

scrapy知乎模擬登錄失敗

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> 下面的代碼模擬登錄知乎，在登錄的時候沒有成功 check_login提示失敗： check_login { "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼會話無效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "驗證碼會話無效 :(" } 有沒有兄弟有成功的經驗，望指點一二，謝謝 # -*- coding: utf-8 -*- import scrapy import json class ZhihuSpider(scrapy.Spider): name = "zhihu" allowed_domains = ["www.zhihu.com"] headers = { 'Host': 'www.zhihu.com', 'Referer': 'http://www.zhihu.com', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36', } def start_requests(self): # 返回值必須是一個序列 return [scrapy.Request('http://www.zhihu.com/#signin', callback=self.login)] def login(self, response): print('-------') # 便于測試 _xsrf = response.xpath('//input[@name="_xsrf"]/ @value ').extract()[0] print(response.xpath('//input[@name="_xsrf"]/ @value ')) print(_xsrf) return [scrapy.FormRequest( url = 'http://www.zhihu.com/login/email', # 這是post的真實地址 formdata={ '_xsrf': _xsrf, 'email': 'xxxxxx', # email 'password': 'xxxxx', # password 'remember_me': 'true', }, headers=self.headers, callback=self.check_login, )] def check_login(self, response): print("check_login") print(response.text) print("check_login ---") if json.loads(response.text)['r'] == 0: ####這里提示登錄失敗 yield scrapy.Request( 'http://www.zhihu.com', headers=self.headers, callback=self.page_content, dont_filter=True, ) def page_content(self, response): with open('first_page.html', 'wb') as f: f.write(response.body) print('done')

來源：開源中國

發(fā)布時間：2017-06-26 17:24:00

Scrapy 是不是不能爬取https的網站？為什么https各種通不過？

HDC調試需求開發(fā)（15萬預算）,能者速來！>>> Scrapy 是不是不能爬取https的網站？

來源：開源中國

發(fā)布時間：2017-02-12 19:02:00

入了 18 的 macbook air

用了多年黑果終于換成白的了現(xiàn)在 clion 可以遠程 debug 了根本不考慮性能問題我把原來黑蘋果的大母雞格掉裝 linux 了體驗很舒適啊啊真香還有這風扇為什么一點聲音都沒有到底有沒有在轉的今晚得開蓋檢查一下

來源：V2EX

發(fā)布時間：2020-08-27 18:46:44

有打算入新款 Macbook Air 的嗎？

https://www.apple.com/cn/shop/buy-mac/macbook-air https://ws1.sinaimg.cn/large/006OyZGQly1fwyh3n93upj30c60mfwg5.jpg 11 月 9 號開始發(fā)貨。有朋友打算入的嗎？我還挺心動的