使用CloudSearch 五步搞定云中文檔搜索

責(zé)任編輯:editor04

2015-03-10 21:29:20

摘自:TechTarget中國

亞馬遜CloudSearch是一個為云計算中文檔創(chuàng)建搜索索引的有用工具。創(chuàng)建搜索索引共需五個步驟:準(zhǔn)備文檔、啟動亞馬遜CloudSearch、定位索引字段源、增加索引字段以及運行測試搜索。

亞馬遜CloudSearch是一個為云計算中文檔創(chuàng)建搜索索引的有用工具。這項服務(wù)是基于使用文檔現(xiàn)有屬性項的,它可允許開發(fā)人員新增新的屬性項以便于對搜索索引進(jìn)行微調(diào)。

這里,我選擇了一個LibreOffice Writer文檔以用于說明如何使用CloudSearch來創(chuàng)建搜索索引和修復(fù)問題。出于演示的目的,我所選的文檔較小,這樣就可確保創(chuàng)建索引成本更低。

創(chuàng)建搜索索引共需五個步驟:準(zhǔn)備文檔、啟動亞馬遜CloudSearch、定位索引字段源、增加索引字段以及運行測試搜索。如果測試結(jié)果是成功的,那么你就可以使用相同的索引來搜索其他的LibreOffice文檔。

步驟1:準(zhǔn)備一個樣本文檔

選中File標(biāo)簽,選擇Properties。 在General Properties標(biāo)簽中,確保選中Apply the user data多選框。在Tools標(biāo)簽下的Options,在LibreOffice User Data文本框中輸入你的名字。選中Use Data for document properties多選框。點擊OK。在Edit標(biāo)簽下,打開Record Changes。進(jìn)行必要的編輯。 以LibreOffice Writer的格式(.odt)保存文檔文件,然后以微軟的Word格式(.doc 或 .docx)保存。因為CloudSearch并不會接受LibreOffice Writer (.odt)格式的文檔文件。

步驟2:啟動CloudSearch

登錄到AWS的管理控制臺。選擇CloudSearch。 在相關(guān)區(qū)域選擇激活域。點擊Upload Documents。選擇 File(s) on my local disk并點擊 Browse 選中你需要上傳的樣本文件。點擊Continue。

在CloudSearch分析樣本文檔之后,相關(guān)界面會顯示索引字段的一個列表:

application_nameauthorcontentcontent_typecreation_datecreatordatelanguagelast_authorlast_modifiedlast_printedresourcenamerevision_numbertotal_time

上述列表中的斜體標(biāo)記表示并沒有針對域進(jìn)行配置。只有解決了這一問題,你才能繼續(xù)下一步。

點擊Cancel。

步驟3:定位正確配置的索引字段源

在Help標(biāo)簽下選擇About LibreOffice以獲得application_name 字段的源。在Tools標(biāo)簽的Options中選擇Language Settings以獲得Language字段的源。英語(美國)是默認(rèn)選項。在File標(biāo)簽的Properties中選擇General Properties以獲得以下表格中字段的源。

在向域配置新增索引字段之前,你可以確定是刪除還是保留這些字段。

步驟4:新增索引字段

登錄CloudSearch,打開相關(guān)界面。選擇一個激活域名。選擇Indexing Options。每次對下述每一個字段點擊Add Index Field。

注:在默認(rèn)情況下,CloudSearch將把每個字段自動設(shè)置為可搜索。

點擊Submit。點擊Run indexing,重新編制索引。點擊OK開始編制索引。一般來說,編制和部署小型索引文件只需花費數(shù)分鐘時間,而編制和部署大型索引文件則可能需要花費數(shù)個小時之久。索引文件越小,重建搜索索引文件的成本就越低。

步驟5:提交搜索請求

選擇Dashboard。從S3 buckets或你的本地文件系統(tǒng)中選擇待上傳文件,并點擊Upload Documents。點擊Run a Test Search。在Search框內(nèi)輸入一個單詞。例如,“vulnerability”。點擊Go,CloudSearch就會以文檔相關(guān)度分?jǐn)?shù)降序的次序列出索引字段。

注:文檔相關(guān)度得分是根據(jù)文檔中搜索詞出現(xiàn)次數(shù)與整個域中所有文檔中搜索詞出現(xiàn)次數(shù)的比值而得到的。在本文的示例中,我們使用了一個文檔。

以下是一個文檔的結(jié)果:

該文檔相關(guān)度得分為0.5532488。搜索詞被發(fā)現(xiàn)一次。

創(chuàng)建者和作者是Judith。

最后的作者是Judith。

該文檔被修改過六次。

語言默認(rèn)為美國英語(en-US)。

創(chuàng)建者和作者是Judith。

創(chuàng)建時間為2014年6月20日10:08:15。

內(nèi)容是:生物漏洞評估變更。

修改日期為12:57:38。

內(nèi)容類型為application/vnd.openxmlformats(Word docx)。

資源名稱Biometric vulnerability assessment.docx。

總之,對一個小文件運行測試搜索可確保處理成本較低。如果測試結(jié)果是成功的,那么你就可以使用相同的索引來對大量的文檔進(jìn)行搜索。

原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88060.htm

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號