文章採集系統

文章採集系統是有(我的世界我採集網)歷時4年開發而成,網上信息採集系統是根據用戶定義的關鍵字字,從網際網路上檢索出相關的數據,並對數據進行合理的截取、分類、去重和過濾,並以檔案或資料庫的方式保存下來。

基本介紹

  • 中文名:文章採集系統
  • 開發:歷時4年開發而成
  • 採集:根據關鍵字字,對數據進行截取
  • 保存:以檔案或資料庫的方式保存
系統開發,功能詮釋,

系統開發

系統的開發工具使用.Net的C#進行系統的開發,資料庫採用SQL Server 2000。
軟體系統總體設計要求
1.當網站搜尋深度為5層,網站搜尋廣度為50個網頁時,數據查全率達到98%。
2.當網站搜尋深度為5層,網站搜尋廣度為50個網頁時,數據查準率大於97%。
3.數據儲存能力:存儲量≥100G。
4.當在單個網站搜尋時,網站搜尋深度:最大第5層網頁;網站搜尋廣度:最多搜尋50個網頁。超過60秒沒結果則自動放棄搜尋。
5.並發搜尋強度:可以同時10個執行緒並發搜尋。
6.5億個漢字的信息平均查詢時間少於3秒。
套用系統設計要求
1.要求系統能進行多執行緒採集信息;
2.能自動分類索引記錄;
3.自動過濾重複、自動標引記錄;
套用系統功能的詳細描述
實時網上採集(內容抓取模組) 快速:網頁抓取採用多執行緒並發搜尋技術,並可設定並發執行緒的最大個數。靈活:可以同時跟蹤抓取多個網站,能夠提供靈活的網站、欄目或頻道的採集策略,以及利用邏輯關係定位採集內容。準確:不多抓與少抓,可自定義需要抓取的檔案格式,能夠抓取圖片和表格信息,抓取過程成熟可靠,容錯性強,完成初始設定後可長時間穩定運行。 高效自動分類支持機檢分類――能夠利用預定義的關鍵字和規則方法判定類別;支持自動分類――通過機器自動學習或預學習自動分類,並達到80%以上的準確率。(這條比較麻煩,可以考慮不做)支持多種分類標準――比如按地域(華北、華南等)、內容(政治、科技、軍事、教育等)、來源(新華網、人民網、新浪網等)等。 自動網頁分析內容過濾――能夠過濾掉廣告、導航信息、著作權等無用信息,能夠剔除反動、色情內容。內容排重――對於不同網站相同或雷同的內容,能夠自動判別並標註為雷同,判別的方法可以由用戶定義的規則判定及自動按內容的相似度判定。格式轉換――自動將HTML格式轉換為文本檔案。自動標引――對網頁自動提取標題、版次、日期、作者、欄目、分類等信息。 系統管理整合的單一界面――系統提供基於Web的用戶使用界面和管理員界面,滿足系統管理員和用戶雙重需求,可利用瀏覽器遠程管理分類目錄、用戶許可權並調整、加強分類結果。完整的目錄維護――提供完整的對分類目錄進行新增、移動、修改、刪除等管理維護許可權管理,可設定管理目錄和單一檔案使用許可權,加強安全管理。實時的檔案管理――可以瀏覽每個目錄分類結果,並實時進行移動、更名等調整。

功能詮釋

用文章採集系統,整個系統可以線上自動安裝,後台有新版本可自動升級;如果系統檔案損壞也能自動修復,站長從此無憂
自動建設功能
強大的關鍵字管理系統
可自動批量獲取指定關鍵字的常見相關詞語,輕鬆掌控用戶搜尋行為
自動文章採集系統四大類內容
文章採集過程中自動剔除重複內容,並可以自由設定各類內容的聚合數量
三重過濾保證內容質量
特別是首創的任意詞語密度判斷功能,為搜尋引擎收錄提供了有力保證
自動生成原創專題
文章採集首創以專題為內容組織形式,這是入口網站內容制勝的法寶
專題內容自動更新
專題不僅可自動創建也可自動更新,並可分別設定各類內容的更新周期
原創標籤綜合頁面
全站集成統一通用的分類標籤體系,不僅讓內容關聯,更是原創內容頁面
個性定製功能
原創標籤綜合頁面
全站集成統一通用的分類標籤體系,不僅讓內容關聯,更是原創內容頁面
兼容多種靜態化模式
不僅有效保證搜尋引擎收錄,更可以增加網站的持續性訪問
任意頂部導航條設定
可隨意增加、刪減頂部導航條,讓網站有高度的定製性
任意url連線地址名稱
不僅讓你的網站是獨一無二,更能在一定程度上提高搜尋引擎排名
支持多模板套系
採用模板編譯替補技術,即使只改動一個檔案也可製作個性界面
任意顯示數量控制
專即可設定專題頁面各類內容的數量,也可設定各列表頁面的顯示數量
內置的站長工具
全程記錄蜘蛛來訪
智慧型識別99%的搜尋引擎蜘蛛來訪,並全程掌控蜘蛛爬行記錄
自動創建站點地圖
全自動生成baidu和google地圖,並可分類設定,有效提高網站內容收錄
一鍵查看排名和收錄
不僅可查看Alexa排名,更可精確掌握網站近日收錄,還能增加網站外鏈
查看網站中的非法關鍵字
可以自動批量查詢網站中是否存在國家禁止的非法內容
線上自動安裝和檔案修復
setup.php工具不僅可自動獲取授權、線上自動安裝系統,更有系統修復功能
後台智慧型自動升級
可自動判斷當前需升級的版本,並自動下載升級,讓站長擺脫更新煩惱
高效性能
超高效自動分詞技術
首創採用數位化詞庫和雙向切詞校驗,大大提高了中文分詞效率和準確度
高效動態頁面快取
採用分模組的頁面快取技術,有效保證系統負載能力和網站的動態性
代碼切分調用技術
使系統每次調用最少程式代碼,減少解析時間,有效提高系統的執行效率
編譯模板技術
所有未變動的模板只需要編譯一次,減少了解析模板時間,提高訪問速度
最少化數據讀取設計
大大減少資料庫資源的消耗,可支持更多用戶快速訪問
圖片縮略圖保存
默認將圖片檔案生成縮略圖保存本地,極大減少了伺服器空間和頻寬的壓力
整站互動功能
個性群組功能
專題可轉換為群組,並擁有比論壇更自由的許可權控制
對外個人主頁
可在個人頁面看到其發起的話題、訂閱的專題以及好友等
我的個人家園
擁有SNS特性,可跟蹤我的話題動態,也可以好友的站內動態
站內好友體系
可以自由加好友,也可看到好友的動態信息
個性收藏系統
你可以將任何你喜歡的內容進行收藏,並設定是否公;
站內簡訊系統
這是你與網站會員的私密溝通系統,有人加你好友也將通過此通知;
文章採集系統運行環境要求
(a)語言類型:PHP,推薦V5.x ,最低支持 V4.3.x;
(b)需資料庫:MySQL,推薦V5.x,最低支持 V4.1.x;
(c)程式加速:Zend Optimizer,推薦V3.x,最低支持 V2.6。 文章採集用業界最流行的php+mysql開發,在絕大部分空間上都可以正常運行。

相關詞條

熱門詞條

聯絡我們