當前位置:文思屋>學習教育>考研>

阿里巴巴筆試考點

文思屋 人氣:1.69W

C++:1.關於DOM的描述;2.網路蜘蛛系統;-8;4.資料庫檢索:查準率和查全率;5.索引壓縮;6.設計cralwer;樹查詢;&HTTP協議;9.資訊檢索模型;10.分散式通訊協議;11.分散式搜尋引擎;12.雙向迴圈連結串列;13.快速排序;14.32位系統。

阿里巴巴筆試考點

關於DOM的描述:

javascrip裡面的dom(文件物件模型)它是一種模型,將格式化文件物件化處理。在xml和html 的處理中廣泛應用。  //dom是定義超文字結構的物件及方法,分層次的,有容器類的物件,也有基本元素物件,而這些物件,都包含有相應的屬性和對應的操作方法(介面)。

//一般而言,DOM結構準確地反映了HTML文件所包含的內容,也就是說,每個HTML標記表現為一個標記節點(tag node),每個文字項內容表現為一個文字項節點(text node)。//是W3C組織推薦的處理可擴充套件置標語言的標準程式設計介面。

2. 網路蜘蛛系統

網路蜘蛛即Web Spider,是一個很形象的名字。把網際網路比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的.連結地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直迴圈下去,直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站,那麼網路蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。

對於搜尋引擎來說,要抓取網際網路上所有的網頁幾乎是不可能的,從目前公佈的資料來看,容量最大的搜尋引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的連結中找到;另一個原因是儲存技術和處理技術的問題,

在抓取網頁的時候,網路蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指網路蜘蛛會先抓取起始網頁中連結的所有網頁,然後再選擇其中的一個連結網頁,繼續抓取在此網頁中連結的所有網頁。這是最常用的方式,因為這個方法可以讓網路蜘蛛並行處理,提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤連結。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。

在網路蜘蛛機器人系統裡面,真正起指揮作用的是人工管理系統制定的規則和檢索索引資料庫。它可以決定什麼樣的網站抓的勤一點,或者乾脆不抓.

3. UTF-8

使用UTF-8編碼唯一的好處是,國外的使用者如果使用Windows XP英文版,瀏覽UTF-8編碼的任何網頁,無論是中文、還是日文、韓文、阿拉伯文,都可以正常顯示,UTF-8是世界通用的語言編碼,UTF-8的推廣要歸功於Google的應用,以及Blog開發者。而如果用Windows XP英文版的IE6.0瀏覽gb2312語言編碼的網頁,則會提示是否安裝語言包。因此,可能會失去很多的國外瀏覽者。 使用gb2312編碼的好處是,因為程式產生的網頁文字使用ANSI編碼格式,會比UTF-8文字編碼節省一些體積,訪問速度會稍微快一點點,大約是30:38的比例,也就是30K的ANSI編碼,轉為UTF-8編碼是38K,當然,這個比例並不準確,是會隨Unicode字符集區域的不同而變化的。