HDC調試需求開發(fā)(15萬預算),能者速來!>>> 如題,在gdb調試中,怎樣才能將鏈表的信息一次都打印出來。否則一個一個打印是很慢的....求解
來源:開源中國
發(fā)布時間:2011-07-23 08:54:00
服務器一直以來請求數幾乎沒啥變化,但是 ES 的 java cpu 使用率突然飆升,top 命令一查,CPU 幾乎 100%,怎么排查是哪方面造成的?以及如何找出惡意的批量暴力請求?
來源:V2EX
發(fā)布時間:2020-08-27 15:47:53
HDC調試需求開發(fā)(15萬預算),能者速來!>>> gdb在eclipse遠程調試時,自己寫.gdbinit完后,執(zhí)行l(wèi)oad命令,出you can't do that when your target is exec'。有木有大神遇到過啊
來源:開源中國
發(fā)布時間:2016-12-01 18:02:00
原來:22k 雙休 五險一金現在:13k 大小周 五險 0 金 搞得每天茶飯不思的,肉痛
來源:V2EX
發(fā)布時間:2020-08-27 15:47:47
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
問題描述 生產主機上程序出現了core,因為是 -o2優(yōu)化,
無法 pint打印全局或者局部變量信息,
你們是如何定位的
來源:開源中國
發(fā)布時間:2015-12-29 14:05:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
匯編代碼文件如下:
section .bss section .data section .text global _gettsc _gettsc: rdtsc rol rdx,32 or rdx,rax mov rax,rdx ret C/C++代碼文件如下:
#include extern unsigned long _gettsc(); int main() { unsigned long count = _gettsc(); return 0; } 如果c++代碼文件命名為.cpp則按照C++去編譯鏈接會報錯:
nasm -f elf64 -F stabs -Ox standerd.asm -o standerd.asm.o make: Circular standerd.asm <- standerd.asm.o dependency dropped. g++ -lpthread -I./ -masm=intel -O3 main.cxx.o standerd.asm.o -o test main.cxx.o: In function `main': main.cpp:(.text.startup+0x5): undefined reference to `_gettsc()' collect2: error: ld returned 1 exit status make: *** [all] Error 1 makefile:19: recipe for target 'all' failed 如果C/C++代碼文件改名為.c按照c語言去編譯鏈接則不會報錯
請問有什么解決辦法嗎?
來源:開源中國
發(fā)布時間:2016-09-05 20:34:00
Safari 連續(xù)用的時間久了,比如超過三小時,會發(fā)現 SMZDM 很多圖片顯示不出來,有時候京東的很多圖片也加載不了。每次出現這種情況的時候,要按 Mac+Q 完全退出 Safari,再打開這些網站就好了。今天看了一下,發(fā)現 SMZDM 這個網站上出現這類問題的圖片都是來自 https://y.zdmimg.com 的,比如https://y.zdmimg.com/202008/21/5f3f31d833f501579.jpg_d200.jpg 而這些圖片直接用 Safari 打開又是正常。試了其它瀏覽器打開 SMZDM 從來沒遇到這情況。 大家有沒有遇到這情況的。
來源:V2EX
發(fā)布時間:2020-08-27 15:47:36
HDC調試需求開發(fā)(15萬預算),能者速來!>>> RT,我是一名剛入門學習c語言的新人,網易云課堂里面老師是選擇的dev-c++作為學習工具使用的。自己也特意查了一下,linux下面的gcc+gdb的使用,感覺很麻煩啊。因為全都是在終端完成的,界面首先就很亂,gcc好像不會顯示全部的編譯信息,比如一些warning(好像可以加選項解決)。特別是在調試的時候dev-c++很容易選擇斷點,不用記行數,可以同時很方便地查看代碼可以查看CPU窗口,這些要是在終端里面顯示的話(我也不知道能不能把win下面ide的功能全部實現),界面的可觀性就會變得很差,在調試大型程序的時候會很麻煩吧(只是我的猜想)。我并沒有想激起win和linux的黨爭,我是實用黨,感覺linux這方面不夠好,但是很可能是我自己見識淺薄所致,所以來問一問。win下的ide還行,但是有很多功能用不上會顯得臃腫,影響速度。 王垠當年提倡「完全用 linux 工作」,然而最近又發(fā)文挺 windows 噴 unix,這中間究竟經歷了什么? 看過上面的鏈接后依然沒能解決我的問題。 我想知道, 各位前輩在linux平臺的開發(fā)工作是怎么進行的呢? 和win一樣繼續(xù)用ide嗎?而不是使用vim(...)+gcc+gdb嗎?感覺gdb調試起來特別麻煩,很不直觀,不便捷 ,有什么解決方法或者使用技巧嗎?還是感覺ide圖形界面的調試更方便快捷。
像一些手游,像微信這種app可以純在linux下完成開發(fā)嗎?還是寫完后拿到win下面調試之類的呢(雖然不知道可行否)? 是否所有的linux下的開發(fā)都可以通過ide來完成呢?作為新手,提問可能會很傻瓜,請見諒。
來源:開源中國
發(fā)布時間:2015-08-18 19:04:00
行業(yè):電力能源 能源金融
base:來福士廣場
匯報上級:能源金融領域知名教授
薪酬:20-30K
量化分析工程師(主要用 xgboost 、LSTM 等模型做能源預測、電力交易模型)
崗位職責:
1 、跟蹤研究國際、國內、重點監(jiān)測區(qū)域(省份)的宏觀經濟、電力行業(yè)政策發(fā)展動態(tài),深入分析其對區(qū)域(省份)電力市場化服務未來發(fā)展前景的影響;
2 、基于國際能源工業(yè)中的各類市場化服務模式,協助研究具有創(chuàng)新性的適合中國政策環(huán)境下的電力服務模式;
3 、分析各類能源用戶的用能行為數據、各類發(fā)電企業(yè)的售電數據,對能源供給側和需求側分別建模,協助研發(fā)優(yōu)化的電力服務方案,營銷環(huán)節(jié)的智能調度,儲能站的商業(yè)模式分析,靈活多樣的服務價格策略;
4 、在領導的指導下,負責設計與落地實際應用方案。
任職要求:
1 、碩士以上學歷,運籌學、管理科學工程、建筑能耗分析管理、自動化控制、計算機、電子工程 (電力系統)、 信息工程等相關專業(yè)。
2 、有 2-5 年以上建模經驗,能夠有效的進行建模任務分解和映射到具體的理論和方法上,精通模型的建立、調優(yōu)和評估方案;
3 、能夠熟練應用一種編程語言( python 或 C++ )來解決大規(guī)模的線形、非線性規(guī)劃和整數規(guī)劃的優(yōu)化模型;
4 、能夠應用統計軟件 R 做常規(guī)的統計分析, 有應用機器學習及深度學習模型的經驗者優(yōu)先,熟悉線性和離散優(yōu)化建模,蒙特卡羅模擬建模者優(yōu)先;
5 、具備嚴謹的邏輯思維能力及分析能力,文字表達能力強,具有強烈的學習意愿和優(yōu)秀的學習能力;
6 、英文水平優(yōu)秀, 能夠熟練閱讀英文文獻,具備良好的搜索中英文文獻和獨立研究能力
聯系方式:13540850227 [email?protected]
來源:V2EX
發(fā)布時間:2020-08-27 15:47:29
如果你期待在技術上有突飛猛進的成長;如果你喜歡自由平等的工作環(huán)境;如果你喜歡在今日頭條、西瓜視頻、番茄小說等 APP 上閱覽千萬信息;如果你想拿到一個有愛又有錢、有趣又充滿挑戰(zhàn)的 offer......那么,快點加入我們吧!你就是我們要找的人![ 01 關于我們] Hi,我們是字節(jié)跳動通用信息平臺( GIP )研發(fā)團隊。我們服務于今日頭條、西瓜視頻、番茄小說、皮皮蝦等各類產品,為數億用戶持續(xù)提供優(yōu)質的資訊、視頻、小說等服務,致力于探索移動端高效率的信息分發(fā)機制,為用戶提供豐富優(yōu)質的內容,促進創(chuàng)作與交流,連接人與信息,豐富大家的精神生活,讓人們看到更大的世界。 我們主要支持的產品有: 今日頭條: 作為國內最大的通用信息平臺,今日頭條致力于通過技術去鼓勵創(chuàng)作與交流,滿足人們自我表達并服務他人的愿望,為人們帶來快樂和有價值的信息。目前平臺累計超過 10 億用戶,用戶平均使用時長超過 1 個小時,在這里既可以獲得及時的新聞資訊,也可以發(fā)現精彩的視頻,并和有趣的人交流互動。 西瓜視頻: 作為綜合視頻平臺,西瓜視頻源源不斷地為不同人群提供優(yōu)質內容,讓人們看到更豐富的世界。同時,西瓜視頻鼓勵多樣化創(chuàng)作,幫助人們輕松地向全世界分享視頻作品,創(chuàng)造更大的價值。目前平臺累計用戶數超過 3.5 億,日均播放量超過 40 億,用戶平均使用時長超過 100 分鐘。 番茄小說: 番茄小說是今日頭條在 2019 年全新推出的,面向網文熱愛者的免費閱讀產品,致力于為讀者提供暢快不花錢的極致閱讀體驗。番茄小說擁有海量正版小說,涵蓋青春、言情、玄幻、校園、仙俠、都市、懸疑等全部主流網文類型,以及大量熱劇原著和經典出版物,支持用戶看書聽書。截至 2020 年 4 月,每日活躍用戶超過 1000 萬。 皮皮蝦: 皮皮蝦是專門為年輕人打造的娛樂社區(qū),依靠海量內容、獨特社區(qū)氛圍以及機器推薦技術,讓用戶能隨時分享生活中的快樂。皮皮蝦自上線以來,多次登頂國內 APP Store 免費榜&娛樂榜,且長期位于 APP Store 免費榜前十,增長潛力巨大。 [ 02 你能收獲] 在這里,你可以: 分析海量數據,挖掘需求,設定猜想,在真實用戶上實驗驗證猜想 在復雜業(yè)務模式下,提高架構高效率業(yè)務體系的能力 與行業(yè)里最優(yōu)秀的同事一起,享受公平開放的文化氛圍,超具競爭力的豐厚福利 擁有飛一般的成長速度 我們相信,因為有你,我們的信息分發(fā)將更加高效;因為有你,我們的內容創(chuàng)作平臺將更加優(yōu)質??靵砑尤胱止?jié)跳動 GIP 研發(fā),和我一起吧! [ 03 工作地點] 北京、上海、廣州、深圳、杭州、廈門都有辦公室 [ 04 崗位內推鏈接] ★字節(jié)跳動校招內推碼: HYWWGNN 投遞鏈接: https://job.toutiao.com/s/JRRGUfE 搜索關鍵詞:今日頭條 /西瓜視頻 /番茄小說 /皮皮蝦即可找到對應崗位;★字節(jié)社招全職內推鏈接: https://job.toutiao.com/s/J6MRfg4 ;★字節(jié)技術日常實習內推鏈接: https://job.toutiao.com/s/J6MjV2D 。(客戶端 /測試崗位缺口大,建議優(yōu)先投遞) [ 05 注意事項] ★校招需填寫我的內推碼,社招 /日常實習通過我的內推鏈接投遞即可內推。為提高通過率,建議按照匹配度和意向度進行投遞,校招僅能投遞 2 個崗位,社招 /日常實習建議 1 次投遞不超過 3 個崗位,否則流程會很慢。建議關注公眾號 [互金運營狗] ,發(fā)送關鍵詞 [加群] ,掃碼加入微信群保持溝通。 ★字節(jié)內推進度支持自助查詢了,大家可以在 PC 端查看進度: https://job.bytedance.com/society/position/application (簡歷篩選,代表 HR 初篩 ing ;簡歷評估,代表過了 hr 初篩,業(yè)務評估 ing ;評估通過,代表通過了業(yè)務評估,可等候通知筆試 /面試;面試中,代表面試 ing ;如果出現已結束 /已終止,則代表掛了,可以投遞其他崗位)。★如果是通過我內推,且如果超 1 周沒有進度更新,可在公眾號 [互金運營狗] 留言告知姓名,我可以幫忙聯系 HR 催促加快處理。正常時間范圍內,請耐心等待。此外,如果不是我內推的,無法跟進進度,敬請知悉~
來源:V2EX
發(fā)布時間:2020-08-27 15:47:21
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
450 tmpquestlist = pqlist;
(gdb) n
454 sendbuflen = panaddr - psb;
(gdb)
452 memcpy(psb, prb, sizeof(MHEAD_T) + tres.qlen);
(gdb)
454 sendbuflen = panaddr - psb;
(gdb)
455 while(tmpquestlist)
(gdb)
454 sendbuflen = panaddr - psb;
(gdb)
457 //?謇囈??s2?
(gdb) display sendbuflen
4: sendbuflen = 34
(gdb) n
460 tmprrslist = data;
4: sendbuflen = 34
(gdb)
源碼是:
450 tmpquestlist = pqlist;
451 / ?′?messageμèeado?uest2?·??Ь????èeado?uest? /
452 memcpy(psb, prb, sizeof(MHEAD_T) + tres.qlen);
453 panaddr = psb + sizeof(MHEAD_T) + tres.qlen;
454 sendbuflen = panaddr - psb;
455 while(tmpquestlist)
456 {
457 //?謇囈??s2?
很奇怪的現象啊,頭一次遇到!
gdb 調試單步執(zhí)行順序亂了,還缺少了
注釋行也在單步調試中顯示了
來源:開源中國
發(fā)布時間:2015-12-18 15:45:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
Program received signal SIGSEGV, Segmentation fault. [Switching to Thread 0x20027823210 (LWP 13841)] Cannot access memory at address 0x80000a9a8 (gdb) where Cannot access memory at address 0x80000a9a8 每次程序運行到這兒都會這樣的錯誤, bt 沒有提示信息
來源:開源中國
發(fā)布時間:2016-07-12 14:31:00
關于比心
比心陪練成立于 2015 年,深耕泛娛樂領域,是一個集線上陪練娛樂、大神短視頻教學于一體的游戲陪練平臺。始終秉承“用戶第一、團隊合作、勇于承擔、擁抱變化;創(chuàng)新 誠信 敬業(yè)“的價值觀,為用戶打造更有趣、更高效的休閑娛樂及社交互動平臺。2019 年以來,比心開始進行電競生態(tài)布局,為平臺電競陪練大神提供全職業(yè)生涯的規(guī)劃和服務。主營 APP 有:比心、魚耳、魚耳直播
招聘
資深前端研發(fā)工程師
職責描述: 1.統籌比心、魚耳、小星球活動業(yè)務前端工作; 2.負責活動基礎組件、Node 層架構、性能優(yōu)化事項; 3.深入理解業(yè)務形態(tài),反向支持和推動業(yè)務發(fā)展; 4.負責組內成員的成長計劃。
任職要求:
1.熟練掌握 React/Vue/Angular 中的一種,三年及以上工作經驗;
2.熟悉一門后端語言( Java/Python/Gode )優(yōu)先;
3.有 Webgl/Canvas 經驗,對頁面渲染及執(zhí)行性能有深入了解;
4.熟練掌握 ES2015/2016/2017 及 CSS3 新特性;
5.對前端工程化、組件化、模塊化有較深入的總結和沉淀的優(yōu)先;
6.具備持續(xù)快速學習能力,積極分享前沿技術熱點。
H5 游戲前端研發(fā)工程師
職責描述: 1.基于現有外包 H5 游戲,持續(xù)迭代新需求和優(yōu)化用戶體驗; 2.負責自研全新 H5 游戲的設計和開發(fā); 3.負責 H5 游戲團隊的組建和落地。
任職要求: 1.深入理解 CSS3 動畫、SVG 、canvas 、webGL ; 2.熟悉一門后端語言( Java/Python/Node ); 3.熟悉 Egret/Cocos Creator/Play Canvas 游戲開發(fā)引擎。
業(yè)務方向
小程序、中后臺、hybrid 開發(fā)等...
業(yè)務穩(wěn)定,發(fā)揮空間大
地址
上海漕河涇開發(fā)區(qū),交通:地鐵 9 號線&地鐵 12 號線
備注
從前 996,如今大小周,周末加班那天工資雙倍,公司正處于強勁發(fā)展勢頭,望廣大人才投遞簡歷~
另外,團隊每三個月團建一次~
有意者可發(fā)送簡歷至郵箱: [email?protected]
來源:V2EX
發(fā)布時間:2020-08-27 15:47:10
可以實習半年以上者優(yōu)先 另外也招前端技術大拿,T9-T11,數據采集領域有豐富經驗者優(yōu)先。 實習 /社招 /校招都有大量 hc tabpan 艾特 tencent.com
來源:V2EX
發(fā)布時間:2020-08-27 15:46:41
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
gdb調試提示:Missing separate debuginfos, use: debuginfo-install glibc-2.12-1.192.el6.i686
網上看了好多答案,都是如下解決方法:
但是我沒有CentOS-Debuginfo.repo這個文件,請問還有其他解決辦法嗎,或者說誰的centos有這個文件麻煩共享下,謝謝!
來源:開源中國
發(fā)布時間:2016-06-11 17:05:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
這不是bug。。。
nbz@bogon 1]$ ls
a.cc
[nbz@bogon 1]$ cat -n a.cc
1 #include
2 class myint { char m1[7]; };
3 main(){ myint i1, &i2 = i1;
4 std::cout << sizeof i2 << std::endl;
5 return sizeof i2;
6 }
[nbz@bogon 1]$ make a CXXFLAGS=-g
g++ -g a.cc -o a
[nbz@bogon 1]$ ./a
7
[nbz@bogon 1]$ gdb a
Reading symbols from /tmp/1/a...done.
(gdb) b main
Note: breakpoint 1 also set at pc 0x4007ec.
Breakpoint 1 at 0x4007ec: file a.cc, line 3. (2 locations)
(gdb) r
Starting program: /tmp/1/a
Breakpoint 1, main () at a.cc:3
3 main(){ myint i1, &i2 = i1;
(gdb) p sizeof i2
$1 = 8
(gdb)
來源:開源中國
發(fā)布時間:2016-02-17 17:15:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 我的系統是ubuntu12.04 gdb 版本為 7.7 cgdb版本為0.6.5 運行到cin時程序就卡住了。。。。
來源:開源中國
發(fā)布時間:2014-03-14 09:58:00
讀書還是工作,都是循規(guī)蹈矩的,最近有點中年恐懼?目標:街車,當大玩具 備選:哈雷 750Rod / 貝納利幼獅 800,或者其他推薦的? 請教幾個問題: 1. 上杭州牌有什么具體要求?具體的費用怎樣? 2. 有什么論壇?商家推薦的?
來源:V2EX
發(fā)布時間:2020-08-27 15:46:14
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
在CentOS下用GDB調試程序時出現如下提示:
Program terminated with signal 11, Segmentation fault.
#0 0x0000000000400bfb in draw_menu (option=0x602000, current_highlight=0,
start_row=6, start_col=10) at app_cd.c:132
132 txtptr = choices[current];
Missing separate debuginfos, use: debuginfo-install glibc-2.12-1.80.el6_3.3.x86_64 ncurses-libs-5.7-3.20090208.el6.x86_64
不解什么意思,也不知道如何下手
來源:開源中國
發(fā)布時間:2012-07-24 15:20:00
有個 mac mini2019,i7,但內存沒升級,當時主要考慮不知道升級到多少合適,弱弱地問有沒有外接內存啊像外接顯卡那樣,反正雷電那么快
來源:V2EX
發(fā)布時間:2020-08-27 15:45:31
Mac mini 2018 升級 10.15.5 后無法開機,按電源鍵什么反應都沒有, 電源燈不亮, 鍵盤燈不亮, 顯示器也沒反應. 按電源 10 秒再按電源鍵也沒反應, 有遇到過類似情況的嗎? 這該怎么辦啊?
來源:V2EX
發(fā)布時間:2020-08-27 15:45:27
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 擴展詞庫更新后,只有重啟搜索服務,重建索引才有效果,如何做到不需要重啟搜索服務就能重新加載 擴展詞庫呢?
來源:開源中國
發(fā)布時間:2013-09-10 09:28:00
如題,外接的顯示器是 Acer EK241QK (4k 屏),在開機之后,顯示器沒反應,需要強制重啟 mini 后再開機才能連接到顯示器(有時候強制重啟后直接進入 recovery 模式了,recovery 模式是能正常連接到顯示器的),之前使用的是 DELL 的 1080p 屏,那時候是沒這個問題的,就是換了顯示器后才出現的這個問題,莫非是分辨率太高了?還是說顯示器的問題?
備注:目前使用的是 USB-C to DP 線,也用 HDMI 線試過了,都有同樣的問題,所以基本可以排除是線的問題。
請問有朋友遇到過同樣的情況么?求解。
來源:V2EX
發(fā)布時間:2020-08-27 15:45:14
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
@石頭上的常春藤 你好,想跟你請教個問題: 你好,在網上看到你給別人的回復,說用ansj 及IKAnalyzer 分詞提取關鍵字,現在分詞是可以,關鍵字怎么提取,能不能私聊下,謝謝了。
來源:開源中國
發(fā)布時間:2016-07-05 12:12:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
ik版本是3.2.0stable.jar lucene版本是3.0.2.jar
----------------IKAnalyzer.cfg.xml的配置內容----------------------------
/ext_first.dic
------------------測試代碼-------------------------------------------------
public static void main(String[] args) throws IOException {
new TestAnalyzer().test(new IKAnalyzer(), "我是個大帥哥,而且很聰明的大帥哥");
}
public void test(Analyzer analyzer,String text) throws IOException{
System.out.println("分詞器是:"+analyzer.getClass().getName());
TokenStream tokenStream=analyzer.tokenStream("content", new StringReader(text));
tokenStream.addAttribute(TermAttribute.class);
while(tokenStream.incrementToken()){
TermAttribute termAttribute=tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());
}
}
但是結果報錯了:報錯信息如下。麻煩大家給點建議:
分詞器是:org.wltea.analyzer.lucene.IKAnalyzer
Exception in thread "main" java.lang.ExceptionInInitializerError
at org.wltea.analyzer.seg.ChineseSegmenter.
(ChineseSegmenter.java:37)
at org.wltea.analyzer.cfg.Configuration.loadSegmenter(Configuration.java:114)
at org.wltea.analyzer.IKSegmentation.(IKSegmentation.java:54)
at org.wltea.analyzer.lucene.IKTokenizer.(IKTokenizer.java:44)
at org.wltea.analyzer.lucene.IKAnalyzer.tokenStream(IKAnalyzer.java:45)
at cn.gdpe.lucene.TestAnalyzer.test(TestAnalyzer.java:32)
at cn.gdpe.lucene.TestAnalyzer.main(TestAnalyzer.java:27)
Caused by: java.lang.ArrayIndexOutOfBoundsException: 0
at org.wltea.analyzer.dic.DictSegment.fillSegment(DictSegment.java:139)
at org.wltea.analyzer.dic.DictSegment.fillSegment(DictSegment.java:128)
at org.wltea.analyzer.dic.Dictionary.loadMainDict(Dictionary.java:134)
at org.wltea.analyzer.dic.Dictionary.(Dictionary.java:71)
at org.wltea.analyzer.dic.Dictionary.(Dictionary.java:41)
... 7 more
謝謝大家了
來源:開源中國
發(fā)布時間:2016-06-11 23:37:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
IKAnalyzer 對英文分詞不起作用啊?求指點
英文怎么分詞?
來源:開源中國
發(fā)布時間:2016-01-13 18:50:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
@楊尚川 你好,想跟你請教個問題:
當想我使用Word想對一些文本進行分詞時,我想能分出這樣帶空格的詞,如:Uniform Server
但是,我即使把Uniform Server這個詞加入到main_dic.txt主詞典中,我也沒有辦法得到分詞:uniform server。請問我有什么辦法能得到這種帶空格的詞嗎?
謝謝
來源:開源中國
發(fā)布時間:2015-12-16 07:58:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
在九月初 BosonNLP 全面開放了分詞和詞性標注引擎以后,很多尤其是從事數據處理和自然語言研究的朋友在試用后很好奇,玻森如何能夠做到目前的高準確率?希望這篇文章能夠幫助大家理解玻森分詞背后的實現原理。
眾所周知,中文并不像英文那樣詞與詞之間用空格隔開,因此,在一般情況下,中文分詞與詞性標注往往是中文自然語言處理的第一步。一個好的分詞系統是有效進行中文相關數據分析和產品開發(fā)的重要保證。
玻森采用的結構化預測模型是傳統線性條件隨機場( Linear-chain CRF )的一個變種。在過去及幾年的分詞研究中,雖然以字符為單位進行編碼,從而預測分詞與詞性標注的文獻占到了主流。這類模型雖然實現較容易,但比較難捕捉到高階預測變量之間的關系。比如傳統進行詞性標注問題上使用 Tri-gram 特征能夠得到較高準確率的結果,但一階甚至高階的字符 CRF 都難以建立這樣的關聯。所以玻森在字符編碼以外加入了詞語的信息,使這種高階作用同樣能被捕捉。
分詞與詞性標注中,新詞識別與組合切分歧義是兩個核心挑戰(zhàn)。玻森在這方面做了不少的優(yōu)化,包括對特殊字符的處理,對比較有規(guī)律的構詞方式的特征捕捉等。例如,近些年比較流行采用半監(jiān)督的方式,通過使用在大規(guī)模無標注數據上的統計數據來改善有監(jiān)督學習中的標注結果,也在我們的分詞實現上有所應用。比如通過使用 accressory variety 作為特征,能夠比較有效發(fā)現不同領域的新詞,提升泛化能力。
我們都知道上下文信息是解決組合切分歧義的重要手段。而作為一個面向實際商用環(huán)境的算法,除了在準確率上的要求之外,還需要注意模型算法的時間復雜度需要足夠高效。例如,相比于普通的 Linear-chain CRF , Skip-chain CRF 因為加入了更多的上下文信息,能夠在準確率上達到更好的效果,但因為其它在訓練和解碼過程,不論是精確算法還是近似算法,都難以達到我們對速度的要求,所以并沒有在我們最終實現中采用。一個比較有趣的分詞改進是我們捕捉了中文中常見的固定搭配詞對信息。譬如,如 “得出某個結論”、 “回答某個提問”等。如果前面出現 “得出” ,后面出現 “結論” ,那么“得出”和“結論”作為一個詞語出現的可能性就會很大,與這種相沖突的分詞方案的可能性就會很小。這類固定搭配也可以被建模,用于解決部分分詞錯誤的問題。
怎樣確定兩個詞是否是固定的搭配呢?我們通過計算兩個詞間的歸一化逐點互信息 (NPMI) 來確定兩個詞的搭配關系。逐點互信息( PMI ),經常用在自然語言處理中,用于衡量兩個事件的緊密程度。歸一化逐點互信息( NPMI )是逐點互信息的歸一化形式,將逐點互信息的值歸一化到 -1 到 1 之間。如果兩個詞在一定距離范圍內共同出現,則認為這兩個詞共現。篩選出 NPMI 高的兩個詞作為固定搭配,然后將這組固定搭配作為一個組合特征添加到分詞程序中。如“回答”和“問題”是一組固定的搭配,如果在標注“回答”的時候,就會找后面一段距離范圍內是否有“問題”,如果存在那么該特征被激活。
歸一化逐點互信息 (npmi) 的計算公式
逐點互信息 (pmi) 的計算公式
可以看出,如果我們提取固定搭配不限制距離,會使后面偶然出現某個詞的概率增大,降低該統計的穩(wěn)定性。在具體實現中,我們限定了成為固定搭配的詞對在原文中的距離 必須 小于一個常數。具體來看,可以采用倒排索引,通過詞找到其所在的位置,進而判斷其位置是否在可接受的區(qū)間。這個簡單的實現有個比較大的問題,即在特定構造的文本中,判斷兩個詞是否為固定搭配有可能需要遍歷位置數組,每次查詢就有 O(n) 的時間復雜度了,并且可以使用二分查找進一步降低復雜度為 O(logn) 。
其實這個詞對檢索問題有一個更高效的算法實現。我們采用滑動窗口的方法進行統計:在枚舉詞的同時維護一張詞表,保存在當前位置前后一段距離中出現的可能成詞的字符序列;當枚舉詞的位置向后移動時,窗口也隨之移動。這樣在遍歷到 “回答” 的時候,就可以通過查表確定后面是否有 “問題” 了,同樣在遇到后面的 “問題” 也可以通過查表確定前面是否有 “回答”。當枚舉下一個詞的時候,詞表也相應地進行調整。采用哈希表的方式查詢詞表,這樣計算一個固定搭配型時間復雜度就可以是 O(1) 了。
通過引入上述的上下文的信息,分詞與詞性標注的準確率有近 1% 的提升,而對算法的時間復雜度沒有改變。我們也在不斷迭代升級以保證引擎能夠越來越準確,改善其通用性和易用性。今后我們也會在 BosonNLP 微信賬戶更多享我們在自然語言處理方面的經驗,歡迎 關注 !
來源:開源中國
發(fā)布時間:2015-10-22 15:17:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 不想將stopword.dic文件放在根目錄下,應該如何在IKAnalyzer.cfg.xml(該文件在根目錄下)中配置路徑呢
來源:開源中國
發(fā)布時間:2015-09-17 11:00:00
我已經無力吐槽了,隨便點開個熱帖下面大概率都是有互噴的,不友好的質疑的,說話陰陽怪氣的,交流一點都不友好。我注冊的時候,社區(qū)氛圍還沒現在這么差,現在感覺現在整個社區(qū)充滿了噴子,戾氣越來越嚴重,難道大家現實中也是這樣的人嗎?
我覺得類似 voting 的機制應該要引入了,被 downvote 多的人必須要有所限制。處罰不能僅僅限于直接罵人,不友好的發(fā)言也應該有所處理。 一個友好的社區(qū) Be Nice to the Community 我們希望 V2EX 能夠成為中文世界中氛圍最好的社區(qū),而實現這個目標,需要我們所有人的共同努力:友善,公平,尊重知識和事實。
這樣發(fā)展下去,我看這個希望只能是奢望了。
來源:V2EX
發(fā)布時間:2020-08-27 15:44:25
HDC調試需求開發(fā)(15萬預算),能者速來!>>> package sample3; import java.io.File; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.FSDirectory; import org.wltea.analyzer.lucene.IKAnalyzer; import com.mongodb.DB; import com.mongodb.DBCollection; import com.mongodb.DBCursor; import com.mongodb.Mongo; /** * 創(chuàng)建索引 * @author zhanghaijun * */ public class Demo1 { public static void main(String[] args) throws Exception { //先在數據庫中拿到要創(chuàng)建索引的數據 Mongo mongo = new Mongo(); DB db = mongo.getDB("zhang"); DBCollection msg = db.getCollection("test3"); DBCursor cursor = msg.find(); //是否重新創(chuàng)建索引文件,false:在原有的基礎上追加 boolean create = true; //IK中文分詞器 Analyzer analyzer = new IKAnalyzer(); //創(chuàng)建索引 IndexWriter indexWriter = new IndexWriter(FSDirectory.open(new File("E:\\lucene\\index")), analyzer, create, IndexWriter.MaxFieldLength.UNLIMITED); boolean exist = cursor.hasNext(); while(exist){ //System.out.println(cursor.next().get("text").toString()); Document doc = new Document(); Field fieldText = new Field("text",cursor.next().get("text").toString(),Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS); doc.add(fieldText); exist = cursor.hasNext(); } cursor = null; //optimize()方法是對索引進行優(yōu)化 indexWriter.optimize(); //最后關閉索引 indexWriter.close(); } } package sample3; import java.io.File; import java.io.IOException; import org.apache.lucene.index.CorruptIndexException; import org.apache.lucene.index.IndexReader; import org.apache.lucene.search.BooleanClause; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.search.TopScoreDocCollector; import org.apache.lucene.store.FSDirectory; import org.wltea.analyzer.lucene.IKAnalyzer; import org.wltea.analyzer.lucene.IKQueryParser; import org.wltea.analyzer.lucene.IKSimilarity; /** * 查找索引 */ public class Demo2 { public static void main(String[] args) throws Exception { // onlysearching, so read-only=true IndexReader reader =IndexReader.open(FSDirectory.open(new File("E:\\lucene\\index")), true); IndexSearcher searcher = new IndexSearcher(reader); searcher.setSimilarity(new IKSimilarity()); //在索引器中使用IKSimilarity相似度評估器 //String[] keys = {"4","testtest"}; //關鍵字數組 //String[] fields = {"id","title"}; //搜索的字段 //BooleanClause.Occur[] flags = {BooleanClause.Occur.MUST,BooleanClause.Occur.MUST}; //BooleanClause.Occur[]數組,它表示多個條件之間的關系 //使用 IKQueryParser類提供的parseMultiField方法構建多字段多條件查詢 //Query query = IKQueryParser.parseMultiField(fields,keys, flags); //IKQueryParser多個字段搜索 Query query =IKQueryParser.parse("text","上海人"); //IK搜索單個字段 IKAnalyzer analyzer = new IKAnalyzer(); // Query query =MultiFieldQueryParser.parse(Version.LUCENE_CURRENT, keys, fields, flags,analyzer); //用MultiFieldQueryParser得到query對象 // System.out.println("query"+query.toString()); //查詢條件 TopScoreDocCollector topCollector = TopScoreDocCollector.create(searcher.maxDoc(), false); searcher.search(query,topCollector); ScoreDoc[] docs = topCollector.topDocs(3).scoreDocs; System.out.println(docs.length); reader.close(); //關閉索引 } }
結果: Exception in thread "Main Thread" java.lang.IllegalArgumentException: numHits must be > 0; please use TotalHitCountCollector if you just need the total hit count at org.apache.lucene.search.TopScoreDocCollector.create(TopScoreDocCollector.java:254) at org.apache.lucene.search.TopScoreDocCollector.create(TopScoreDocCollector.java:238) at sample3.Demo2.main(Demo2.java:35)
哪位朋友分析下吧 我是按照網上的模仿下來的不知道哪里出問題了
mongo中的一段數據 /* 0 */ { "_id" : ObjectId("500d1a96df1d4d3b58245f95"), "username" : "zhangsan7046", "text" : "我是上海人,我的工作是承續(xù)員" }
來源:開源中國
發(fā)布時間:2012-07-24 11:05:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 我查看了一下IK的文檔示例,在中文分詞后的結果中原字符串中的標點符號都被忽略掉了,有沒有辦法保留原字符串中的所有字符,只是做分割的動作呢?
來源:開源中國
發(fā)布時間:2012-04-27 22:11:00
環(huán)境是 Windows10,go1.12
在 powershell 中運行 build 好的程序,當用鼠標滾輪滾動查看程序的輸出內容時,極有可能導致進程卡住,表現為不再輸出內容和網速占用降為 0kb,當按了 Ctrl+c 就恢復正常。而不滾動終端的輸出時就沒有發(fā)生過這種情況。
請問大伙遇到過這種情況嗎?
來源:V2EX
發(fā)布時間:2020-08-27 15:43:57
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 目前有個整形項目,通過nutch爬取得到很多中文,通過IK分詞效果不是特別理想,如“矯正牙齒”會分成“矯正”和“牙齒”,但是需要這樣的詞是連起來的,也就是說每一個動詞都要后加一個名詞
來源:開源中國
發(fā)布時間:2015-08-12 13:52:00
接著上次的 IOS 版的 gwda 使用 Golang 來控制你的 iOS 設備~
這次把拖更的 Android 版也補上
項目地址: https://github.com/electricbubble/guia2
Golang 實現的 appium-uiautomator2-server 客戶端庫,用于控制 Android 設備,實現 UI 自動化操作。(無需 root )
常用操作已經都實現了,還有 4 個 函數使用頻率應該很低,但也爭取這幾天抓緊時間補上。
放一個示例代碼的執(zhí)行 GIF
來源:V2EX
發(fā)布時間:2020-08-27 15:43:51
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
@林良益 你好,想跟你請教個問題:如題
來源:開源中國
發(fā)布時間:2013-08-13 23:27:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
最近在用solr做一個項目,不斷開發(fā)不斷完善,但同事提出一個問題,以前沒考慮過,想了想好像確實有問題。
問題描述:
目前索引的時候分詞器采用的是max-word(當然與算法無關),目前我的詞庫有30萬詞,假如:以后我的詞庫增加了,那么檢索的時候是沒有問題的,但原來已經索引的數據,怎么辦呢?原來索引的時候有些詞沒有,被分成了單字,現在更新詞庫有了,那怎么辦呢????同事提出這樣,想了想確實有問題。不知道是我用的方式不對,還是哪里理解有問題。請大家?guī)兔獯鹣拢x謝?。。?
@紅薯 @滔哥
來源:開源中國
發(fā)布時間:2014-06-23 00:12:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>> 想問下大神,在用outputscript往jsf頁面引入js文件時,應該將js文件放到哪里?。坑姓f是要放到resources根目錄下,但是這個resources文件夾是自己創(chuàng)建還是創(chuàng)建工程時工程自己創(chuàng)建的?。?、我自己創(chuàng)建了一個,然后把js文件放到resources文件夾后,eclipse不報錯,但是js也不起作用?。?!~outputstylesheet標簽也是這樣,引入的css文件也不管用?。?! 求助于大神啊??!~
來源:開源中國
發(fā)布時間:2013-04-24 14:20:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
@Credo 你好,想跟你請教個問題:看了你寫的CDI系列文章受益很深,CDI(Weld)基礎<2> JSF+CDI+JPA項目示例中,是用jsf做為view層,這里如果換成jsp或者ajax方式的操作是否可行呢,煩望指導,謝謝。
來源:開源中國
發(fā)布時間:2014-12-08 17:05:00
HDC調試需求開發(fā)(15萬預算),能者速來!>>>
工作算三年多了,停下來整理一下。
一年前發(fā)了篇走火入魔貼,之前被一大堆技術雜堆腦中,比較疲備,當時真想回家進體制內了。
挺巧,大學專業(yè)是電子信息工程,java沒教,培訓java也是因為在火車上跟一HR MM聊天,被告之j2ee火,好找工作,被忽悠去的,呵呵。
簡單點:
做過的項目有互聯網,有企業(yè)應用,還是偏向互聯網。
javase 缺乏復雜多線程實戰(zhàn)經驗,其他沒問題。
javame 忘掉,沒興趣+腦容量有限。
javaee
放入回收站:
velocity,springmvc,ibatics,spring,ejb
grails,rails,playframework,android yui,protype,php。
需要時,撿起。
ibatics 覺得沒有什么好吸收的,要真自己實現一個類似的,不難,也曾經寫過個簡單的
rails 吸收約定優(yōu)于配置思想,DRY思想
spring 吸收ioc+aop與用到的一些設計模式,其它回收站
playframework 吸收jpa部分,動態(tài)編譯部分
grails 吸收gorm,groovy。
刪除:struts,struts2。
深入:javaee6規(guī)范,重點:jsf2規(guī)范,jdbc規(guī)范,servlet3規(guī)范;
jpa,hibernate,多線程,jvm。 計劃:重拾大學專業(yè)相關,離散數學。 重新看了宏哥的一些貼子和與別人有爭吵的貼子,過濾掉一些惡意信息,決定,DBA不是我的方向,oracle什么的,就不去折騰了。 對新java框架不再追逐,如果有興趣也是為了吸收框架精華部分,納入自己比較熟悉的seam+jsf,發(fā)現回收站還有好東西,隨時回收,呵呵。 新項目首選seam+jsf,實在不適合,從回收站中找。 目前已經基本把play的jpa部分和動態(tài)編譯部分整合到seam中,play基本吃飽。 為升級到seam3做過渡,hack seam2源碼,支持jsf2了(讀jsf2規(guī)范,有點痛苦,不過讀完后更加確定研究jsf2了)。 動態(tài)編譯部分納入的話,琢磨看能不能用scala開發(fā)jsf項目。 明白了從重多框架中找出100%滿意的框架,不可能,真正滿意的只有自己實現。不過要從頭實現一個full-stack框架并且要設計良好,估計還得再有兩年功力。 這么看來,要弄的東西又多了,不追新,沉淀吧,先這么定了。
來源:開源中國
發(fā)布時間:2011-09-05 06:30:00