第1741章 別被技术细节嚇住
⚡ 自动翻页
打开后读到底,自动翻到下一次心动
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  办公室的白板上写满了字。
  李明的粉笔停在半空,眉头皱成一个疙瘩。
  他转身看向另外四个同伴,又看看坐在会议桌旁的贾瀞雯。
  “贾总,这个『网页爬虫』的概念……我们研究了三天,还是有点不明白。”他放下粉笔,拍了拍手上的粉灰,“文档上说,要让程序像蜘蛛一样在网上爬,自动发现和收集网页。
  但具体怎么实现?”
  张涛推了推眼镜,翻开陈浩写的技术框架文档:“这里写了一些思路--从几个种子网站开始,提取页面上的连结,然后访问这些连结,再提取新连结。
  理论上可行,但实际做起来问题很多。”
  “什么问题?”贾瀞雯问。
  “比如,有些网站不允许被访问。”说话的是王磊,团队里最年轻的一个,北大研究生在读,“还有,网页格式千奇百怪,怎么准確提取连结?再比如,如果程序陷入死循环怎么办?”
  贾瀞雯点点头。
  这些她也不懂,但她知道该问谁。
  “今天先到这里。”她看看表,“晚上我打电话问问陈总。
  大家继续研究其他部分,分词算法那边有进展吗?”
  张涛摇摇头:“更难。
  英文有空格分隔单词,中文是连在一起的。