Connotate是一家為美聯(lián)社、路透社、道瓊斯等大型公司對(duì)全球上千個(gè)網(wǎng)站的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)時(shí)分類和分析的公司。
Web數(shù)據(jù)監(jiān)測軟件提供商Connotate公司的董事長瑞恩穆赫蘭道補(bǔ)充說:“提取信息的時(shí)間減少了,用來思考如何制定相應(yīng)計(jì)劃的時(shí)間增多了,決策的正確性自然就上升了。例如,作為我公司的董事長,我不但可以從我們的銷售周期上看到我們產(chǎn)品的銷售趨勢,同時(shí)還可以知道這樣的銷售趨勢對(duì)我們的業(yè)務(wù)將會(huì)有什么樣的影響,然后我就可以快速、有效的決定公司未來的發(fā)展策略。”
產(chǎn)品功能:
Connotate利用機(jī)器學(xué)習(xí)自動(dòng)生成的高效代碼和輔助配置,其數(shù)據(jù)抽取的工具稱為Agent。
在Agents的指引下,用戶能精準(zhǔn)地獲得需要的信息—Connotate在過濾了廣告和無關(guān)信息的同時(shí),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成為支持業(yè)務(wù)流程的可讀性數(shù)據(jù)。
Connotate的解決方案相比于網(wǎng)頁腳本工具要優(yōu)越得多,由于網(wǎng)站格式不斷變化,修整是一項(xiàng)很重要的工程,Connotate的解決方案具有較強(qiáng)的適用性。
各網(wǎng)站都在不斷地更新。優(yōu)化解決方案,不但是為了精準(zhǔn)地檢測網(wǎng)頁內(nèi)容的變化,而且是為了更有效率地提高推送信息。過濾垃圾信息和刪除重復(fù)數(shù)據(jù)可使工作流取得更大成效.
部署選項(xiàng)
Connotate能夠滿足用戶的業(yè)務(wù)之需,并且適應(yīng)今后的發(fā)展和變化。而且,Connotate能夠提供靈活實(shí)用的解決方案以滿足用戶具體的業(yè)務(wù)需求。
實(shí)地部署Connotate
在我們點(diǎn)擊式的控制界面的幫助下,即使不是專業(yè)的技術(shù)人員,也可以輕松快捷的對(duì)各大網(wǎng)站進(jìn)行數(shù)據(jù)監(jiān)控和抽取。
在一到兩個(gè)課程的學(xué)習(xí)中,用戶可以熟練地創(chuàng)建Agents。
即使不是專業(yè)的技術(shù)人員,也可以成功訪問上千家網(wǎng)站
Connotate的工作安排表給用戶帶來了方便
當(dāng)網(wǎng)站停止運(yùn)行或其他方式無法返回?cái)?shù)據(jù)時(shí),Agents會(huì)及時(shí)警報(bào)通知
數(shù)據(jù)傳輸功能的設(shè)置簡易
Connotate實(shí)地部署的解決方案能夠以獨(dú)特的視覺抽象技術(shù),即使是非專業(yè)的開發(fā)人員也可以迅速地設(shè)置新網(wǎng)站的監(jiān)控系統(tǒng),而且進(jìn)行快速大規(guī)模的部署。
Connotate的方案還支持把SOAP與REST Web Services APIs集成到工作流中,也可以快速創(chuàng)建任何兼容開放數(shù)據(jù)庫連接(ODBC)的數(shù)據(jù)庫,包括SQL服務(wù)器、MySQL、Oracle等。
Connotate 實(shí)地部署是用戶理想選擇:用戶可以建立自己的應(yīng)用程序,并根據(jù)自己的喜好將集成到工作流中,創(chuàng)建數(shù)據(jù)收集功能,方便用戶管理整個(gè)公司或者具體的某個(gè)部門。
Connotate服務(wù)器托管解決方案
基于數(shù)據(jù)中心,Connotat能夠?yàn)橛脩籼峁┓?wù)器托管的解決方案,根據(jù)用戶在日程或者在交易基礎(chǔ)上的要求,推送數(shù)據(jù)。
不用進(jìn)入計(jì)算機(jī)系統(tǒng)就可以迅速部署和整合數(shù)據(jù)。
Connotate多年的團(tuán)隊(duì)專業(yè)服務(wù)經(jīng)驗(yàn),為用戶完成大規(guī)模的布置任務(wù)和方案優(yōu)化。
服務(wù)等級(jí)協(xié)議(SLAs)與全天候的服務(wù)支持
對(duì)于一些企業(yè)或者部門來說,若沒有時(shí)間從頭到尾跟進(jìn)一項(xiàng)目,或者把IT技術(shù)互動(dòng)到使用計(jì)算機(jī)資源中去,此時(shí), Connotate 服務(wù)器托管方案是用戶理想的選擇。
用戶可以通過Connotate的解決方案選擇恰當(dāng)?shù)木W(wǎng)站和工作,降低平均成本,縮短上市時(shí)間。
Connotate的解決方案為可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)并推送給用戶,而且還可以導(dǎo)入到分析應(yīng)用程序中,大大簡化了工作,使用戶能夠更好更快地做出戰(zhàn)略決策。
不受網(wǎng)站格式變化影響,可視化抽取&只需要用著重色標(biāo)記就可以改變監(jiān)測。
創(chuàng)新特點(diǎn):
下表總結(jié)了傳統(tǒng)編程方案和Connotate混合型的解決方案的區(qū)別。
(1)
(2)
(3)三種數(shù)據(jù)挖掘方式的比較:
運(yùn)行情況:
多個(gè)服務(wù)器組合主要是為了能夠更好的發(fā)揮出Connotate的厲害之處和更好的為用戶提供信息服務(wù)。
一臺(tái)服務(wù)器用于對(duì)接Connotate的數(shù)據(jù)庫,一臺(tái)服務(wù)器用于對(duì)接Web,另外一臺(tái)服務(wù)器是用于數(shù)據(jù)處理,這三個(gè)過程是相互聯(lián)系相互制約的。
建議的服務(wù)器配置如下:
數(shù)據(jù)庫服務(wù)器(數(shù)據(jù)抽取的關(guān)鍵)
2GHz雙四核以上的處理器
32GB以上的內(nèi)存
操作系統(tǒng)-146 GBSCSI 驅(qū)動(dòng) (RAID-1)
結(jié)構(gòu)化數(shù)據(jù)庫&數(shù)據(jù):450GBSCSI 驅(qū)動(dòng)(RAID-10)
Web服務(wù)器
2GHz雙四核以上的處理器
8GB以上的內(nèi)存
146 GB SCSI 驅(qū)動(dòng) (RAID-1)
處理服務(wù)器
2GHz雙四核以上的處理器
8GB以上的內(nèi)存
146 GB SCSI 驅(qū)動(dòng) (RAID-1)
Connotate的部分用戶列表:
a、 Connotate在公共資源中抽取數(shù)據(jù),為某美國州政府部門推送簡潔幾近實(shí)時(shí)的信息,為其研究調(diào)查工作做出了不可磨滅的貢獻(xiàn)。
b、FactSet利用Connotate在世界各地的成千上百個(gè)網(wǎng)站中收集數(shù)據(jù),并向其金融行業(yè)的用戶推送數(shù)據(jù),支持他們更好地做出投資決策。FactSet的客戶要求數(shù)據(jù)是精準(zhǔn)、實(shí)時(shí)和完整的。使FactSet無需增加管理人員的數(shù)量的同時(shí)增加企業(yè)監(jiān)控?cái)?shù)量,能夠訪問到一些沒有寬帶的偏遠(yuǎn)地方的數(shù)據(jù),方便快捷精準(zhǔn)!
c、Connotate為美國某背景調(diào)查公司自動(dòng)化抽取數(shù)據(jù)和監(jiān)控?cái)?shù)據(jù),為用戶大大提高效率,原來需要八小時(shí)的工作先在只需要6分鐘。背景調(diào)查的次數(shù)每年增加62%,但是費(fèi)用卻減少$150,000,大大提高效率提供優(yōu)質(zhì)的數(shù)據(jù),收入增加了至少2.5倍。
d、Connotate自動(dòng)化監(jiān)控和抽取管理?xiàng)l例的變化數(shù)據(jù),以避免經(jīng)濟(jì)處罰。Connotate為MassHousing監(jiān)控住房和城市發(fā)展部的管理?xiàng)l例的變化,捕捉到最新管理?xiàng)l例帶來的機(jī)遇。
e、Connotate為某人力資源服務(wù)商持續(xù)的自動(dòng)化監(jiān)控1000多個(gè)網(wǎng)絡(luò)資源,大大提高發(fā)布職位的精準(zhǔn)度。
f、Connotate的自動(dòng)化方案大大減少了數(shù)據(jù)抽取的周期時(shí)間,為某醫(yī)療設(shè)備企業(yè)原來需要八小時(shí)完成的工作現(xiàn)在只需要六分鐘。
g、 Connotate為華爾街一家投資機(jī)構(gòu)使用戶對(duì)市場部門個(gè)體股票的微小動(dòng)態(tài)都了如指掌,獲得支持買方購買的可行性洞察,提供了產(chǎn)品價(jià)格、庫存情況、廣告話費(fèi)、轉(zhuǎn)換率、訂單情況和其他重要的非結(jié)構(gòu)化數(shù)據(jù)信息,而這些數(shù)據(jù)(用其他工具)是很難抽取的但是卻是很有分析價(jià)值的。
h、Connotate為一家提供生化有機(jī)化學(xué)產(chǎn)品的企業(yè)Sigma-Aldrich,提供精準(zhǔn)的動(dòng)態(tài)的價(jià)格信息, 確保其為187,000多個(gè)產(chǎn)品更好地做出優(yōu)化和定位。
i、 Connotate為某禮品和家居設(shè)計(jì)批發(fā)企業(yè)監(jiān)控了90家零售商的網(wǎng)站,通過消費(fèi)者的購物車記錄預(yù)計(jì)其交易,以抽取可獲得的庫存信息和價(jià)格信息。
j、無需人工干預(yù),90%的Web數(shù)據(jù)都是Connotate幫助抽取的。而且Connotate還能實(shí)現(xiàn)把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),與后臺(tái)的引擎系統(tǒng)對(duì)接,如Salesforce。Connotate在某數(shù)據(jù)發(fā)行商的應(yīng)用。
k、 一前50強(qiáng)的產(chǎn)品公司Luminoso利用Connotate在社交網(wǎng)站youtube中發(fā)現(xiàn)消費(fèi)者對(duì)新產(chǎn)品的態(tài)度,以幫助他們做出更好的決策和提高。
l、Connotate為美聯(lián)社從各個(gè)目標(biāo)網(wǎng)站上收集聚合信息,并轉(zhuǎn)換為可用的數(shù)據(jù)格式。
實(shí)戰(zhàn)效益:
a、全面,自動(dòng)全天候抽取相關(guān)網(wǎng)站的內(nèi)容,新聞、門戶、論壇、微博(新浪、騰訊)
b、高效,大大減少了數(shù)據(jù)抽取需要的時(shí)間,又提高了精準(zhǔn)度,避免了人工干預(yù)帶來的難以發(fā)現(xiàn)的錯(cuò)誤。
c、低成本,無需專業(yè)的技術(shù)人員,普通職員也可以進(jìn)行操作,減少了人工成本。
d、發(fā)現(xiàn)洞察,及時(shí)發(fā)現(xiàn)并解決問題,大大有利于決策的制定和維護(hù)社會(huì)穩(wěn)定和促進(jìn)和平。
e、毫無保留地導(dǎo)入到數(shù)據(jù)倉庫中,把關(guān)注的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換為自己私有的數(shù)據(jù)庫。為政府部門維穩(wěn)促和發(fā)揮至關(guān)重要的作用。
f、適用性,不受網(wǎng)站格式變化的影響,無需編寫代碼,維護(hù)費(fèi)用幾乎為0.