網路內容過濾技術:簡介,過濾3步走,難點及趨勢,負面問題,技術擔綱,正邪之間,

網路內容過濾技術採取適當的技術措施，對網際網路不良信息進行過濾，既可阻止不良信息對人們的侵害，適應社會對意識形態方面的要求，同時，通過規範用戶的上網行為，提高工作效率，合理利用網路資源，減少病毒對網路的侵害，這就是內容過濾技術的根本內涵。

基本介紹

中文名：網路內容過濾技術
過濾內容：網際網路不良信息
目的：減少病毒對網路的侵害
過濾手段：3種
難點：內容分類的效率和準確性
過濾技術：名單、關鍵字過濾技術等

簡介,過濾3步走,難點及趨勢,負面問題,技術擔綱,正邪之間,

簡介

隨著網際網路的迅速普及，網路內容“垃圾”已經開始侵入人們的生活，像現在網際網路上大量的不良信息，以及垃圾郵件、病毒郵件、泄密郵件和網路聊天等問題，已經逐漸侵襲到人們的靈魂。對網際網路取其精華、去其糟粕，從而保護自己以及抵禦力極差的青少年，一種新的技術——內容過濾因此孕育而生，引起人們的關注。

過濾3步走

個人電腦內容過濾每個人都或多或少有一些使用IE的經驗，通過“工具Internet選項內容分級審查允許”開啟這項功能。

內容分級審查是根據網際網路內容分級聯盟（ICRA）提供的內容分級標準，來允許或禁止訪問某些不良的網站。內容分級審查功能本來可以讓家長很好地控制孩子的上網，但是非常遺憾，並不是所有的網站都遵守ICRA規範，也就是說這個分級標準並不是放之四海皆準的，它從一開始就成了IE的擺設。

除了IE自帶的內容過濾功能，市場上還有一些需要安裝在上網電腦終端的內容過濾軟體，常見的有SurfControlCyberPatrol、國內的藍眼睛、過濾王等等。這些軟體可以在一定程度上控制孩子訪問色情、遊戲等不良網站，比較適合家庭單機使用。

企業網路內容過濾

在每一個網際網路訪問的網路邊緣（企業/學校網絡邊緣、網咖網路出口），都可以部署內容過濾工具。這些工具一般是分析網路數據流中包含的HTTP數據包，對數據包頭中的IP位址、URL、檔案名稱、HTTPmethods進行訪問控制。

在網路邊緣的內容過濾產品有兩種表現方式：旁路式（Passby）和穿透式（Passthrough）。旁路式內容過濾產品是獨立的，它監聽網路上所有信息，並有選擇的對基於TCP的連線（如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等）進行阻斷。旁路式過濾的原理基於TCP的連線性：跟蹤所有TCP連線，阻斷時以伺服器身份向客戶端傳送HTTPFINPUSHACK，同時以客戶端身份向伺服器傳送HTTPRST。一般情況下，旁路式內容過濾產品可以快速部署，對網路運行不存在影響和風險。穿透式內容過濾產品依賴於其他網路邊緣處的基礎平台，如MicrosoftISA、CiscoCacheEngine、BlueCoatProxySG、NetscreenFirewall等。穿透式內容過濾產品根據這些網路邊緣接入基礎平台的訪問請求，作出允許或禁止的判斷，然後由這些平台執行過濾的動作。

那么，內容過濾產品如何作出允許或禁止的判斷呢？不同的廠商有著不同的解決方案。從理論上來講，最理想的產品能夠實時對網頁內容進行分析，然後判斷是否允許用戶訪問。例如，用戶訪問一個色情網站，內容過濾產品分析這個網站中頁面的內容，發現其中包含了大量的色情辭彙和圖片信息，從而判斷這是一個不良網站，需要進行過濾。這是一個理想的狀態。但是，在具體的生產套用環境當中，實時分析網頁內容並進行過濾是不現實的，這個問題主要體現在：對網頁內容實時分析給用戶瀏覽體驗帶來的延時是不可以接受的。對文字內容進行比較分析需要大量的計算資源，更不用說圖片信息。試想一下每一個用戶每點擊一個連結都要等待數十秒鐘，這還是比較好的情況。一般的企業網路內每秒鐘都會有數個到數十個HTTP連線建立，這對實時的內容分析來說是不可完成的任務。

所以，絕大部分廠商採取了一個折衷的辦法。他們事先對訪問量較大、名氣較大的網站和網頁的內容做分類的工作，然後把URL、IP位址和內容分類對應起來，。當用戶訪問這些網站上的頁面時，內容過濾產品就可以根據事先的分類進行過濾，達到按內容過濾的目的。

因此，內容分類資料庫的數量和質量是評價一個內容過濾產品的重要指標。有些廠商組建了專門的內容分析部門，他們專職監控每天新出現的網站，然後將這些網站分類更新到資料庫當中。還有些廠商使用人工智慧技術，自動進行分析。內容安全產品的市場爆炸證明，這種辦法是可行的，也是經濟的。

網際網路骨幹內容過濾

內容過濾除了在個人電腦和企業網路中的套用，在網際網路骨幹上也可以實現相同的功能。網際網路骨幹的主要任務是在保證可連通性的同時，儘可能快速地提供數據交換通道，這就要求網路結構和配置儘可能簡單。屬於網路高層套用的內容過濾本來不應該在網際網路骨幹上部署實施。但是，出於國家安全的需要，對一些網站還是需要進行禁止。電信運營商在網際網路骨幹上使用的內容過濾技術主要是DNS過濾和IP位址過濾：網際網路骨幹DNS伺服器拒絕解析指定URL列表；通過ACL拒絕到指定IP位址的連線。這些手段輕微地影響網際網路性能，但是技術和現實中也是可以實現和接受的。

另外，現在國內有些地區的寬頻運營商還提供“綠色上網”服務，為申請此項服務的用戶提供內容過濾的功能，以保護青少年和兒童。這些“綠色上網”服務的原理同以上的內容過濾原理是一樣的，不同之處在於每個用戶的可定製化功能。還有些運營商採取了“投訴”的方式來維護更新不良內容網址，通過獎勵上網費用和時間的方式來鼓勵寬頻用戶投訴不良網站。這也是一個很好的思路和現實的做法。

難點及趨勢

從這三種過濾手段來看，它們都受制於內容分類的效率和準確性。如何提高內容分類的效率和準確性，是各個廠商鑽研的難題。

實際上，每個月都有超過100萬個新註冊的網站出現在網際網路上，也就是說網際網路是變化的，這種變化是永不停息的。最好的辦法還是挑選一部分網站放在資料庫當中，這些網站至少具有兩個特徵：1、訪問量比較大；2、包含不良內容。對於那些訪問量不大，或者內容“不鹹不淡”的網站，大可以忽略不計。

每個企業或者每個人的瀏覽習慣都是不一樣的，也可能有些人特別喜歡瀏覽一些冷門的網站，這就涉及一個個性化的問題。為了對這些訪問進行控制和過濾，內容過濾產品本身還要具有一定的智慧型，能夠自動分析歸類這些網站的內容，並對用戶的訪問進行過濾。這樣的分析結果應該保留在訪問者的本地內容過濾設備上，而不是上傳同步到所有的用戶。這樣的話，所有用戶就有一個集中的公共資料庫，包含了絕大部分熱門網站；每個用戶還有一個分散的私人資料庫，包含了自己的瀏覽分析歸類數據。

負面問題

大家都知道，網際網路內容帶來的負面問題，一般分為兩個方面：一是娛樂性內容對人們的誘惑；一是不良信息對人們靈魂的危害。

對於前者，網際網路上無數的娛樂性內容正在吞噬人們的寶貴時間，這些與工作無關的活動包括線上遊戲、網上購物、股票交易、網上電台、流媒體和MP3下載等，它們對網上用戶來說是全新的誘惑。據美國Websense公司最新公布的一份調查結果顯示，四分之一的美國員工每個星期至少會花費超過一個工作日的時間上網瀏覽與工作無關內容。此外，美國管理協會做的一項調查還表明，企業員工全部上網活動中，50%以上都是與工作無關的，這意味著這些員工每個月拿到的薪水當中一部分與他們的工作無關。為此美國一年將付出幾十億美元的代價。另外，專門研究上網成癮症狀的專家表示，25%到50%的上網成癮的人都是在辦公室里上網的，如果企業對員工在上班時間上網的情況不聞不問，而且也不對某些不良網站進行禁止，那么很有可能會引發一系列嚴重的後果。

如果這在根本上還不是絕對有害的話。後者就不同了，據有關機構調查顯示，有34.6%的青少年網民承認自己曾經瀏覽過色情網站，有4.9%的人承認“經常”去看。很多青少年因此而荒廢學業，成為“網路海洛因”的吸食者。

技術擔綱

採取適當的技術措施，對網際網路不良信息進行過濾，既可阻止不良信息對人們的侵害，適應社會對意識形態方面的要求，同時，通過規範用戶的上網行為，提高工作效率，合理利用網路資源，減少病毒對網路的侵害，這就是內容過濾技術的根本內涵。

一般來說，內容過濾技術包括名單過濾技術、關鍵字過濾技術、圖像過濾技術、模板過濾技術和智慧型過濾技術等，如果再細緻分析，現階段的內容過濾技術主要分為基於網關和基於代理兩種。

首先，基於網關的內容過濾，一般嵌入專門的安全網關或者防火牆等網關設備中，此種網路設備一般通過靜態和動態內容過濾來進行。所謂靜態過濾，就是可自定義可信站點和禁止站點。比如，靜態過濾可以阻塞對“交友社區”的訪問，以拒絕訪問“交友社區”的網站內容。動態過濾也很重要，因為Internet和Web都不是靜態的。相反，新的網頁正以每年數以億計的速度添加到Web，每分鐘都有新的站點和頁面出現。此外，Web頁也不是一個單一的實體，而是由眾多獨立的組件組成，每個組件都有它們自己的URL，瀏覽器可以單獨和獨立地獲取它們。其中每個組件都可以通過其URL直接訪問，因此也可能是過濾對象。動態內容過濾可以通過設定URL中的關鍵字來過濾含此關鍵字的站點以確定用戶是否應獲取某一請求的URL，即便該URL沒有明確定義。比如，動態過濾可以拒絕訪問URL中有“Porn”字樣的所有站點。理想的防火牆不僅應支持靜態內容過濾，還應能讓用戶選擇一個可以自行決定阻塞的廣泛類別列表，如拍賣、聊天、就業搜尋、遊戲、仇恨/歧視、歷史、玩笑、新聞、股票、泳衣，等等。這種功能可使辦公室管理員和父母允許或阻塞對任何站點類別的訪問。而且，由於Internet始終都在變化，因此應當定期用被歸入站點類型的新URL更新類別列表。

其次，基於代理的內容過濾。主要以專用的硬體代理上網設備實現，一般是將設備配置成代理快取伺服器，並部署在企業用戶和Internet之間，這些最佳化的專用設備就能夠智慧型地管理用戶的內容請求。當用戶請求一個URL時，請求首先到達設備相應連線埠安全專用設備進行認證和授權。如果請求的頁面中的對象已經在該專用設備的本地快取中，它們就從本地直接訪問給用戶，如果不在本地快取中，安全專用設備就作為用戶的代理，通過Internet和源伺服器通信。當對象從源伺服器返回時，就保存在本地快取中以為後續的訪問請求服務，同時傳送一個拷貝給訪問的用戶。整個過程被全程監控，並作記錄，供訪問報告統計和為企業計畫提供依據。

正邪之間

發展到現在，儘管基於代理和網關的兩大內容過濾系列技術，包括名單過濾技術、關鍵字過濾技術、圖像過濾技術、模板過濾技術和智慧型過濾技術等，已經比較成熟，而且，產品主要包括單機版（家庭版）、網咖版、企業版、校園版、酒店版、ISP版、電信版等，基本涵蓋了各個領域，但是值得一提的還是，內容過濾技術還處於初級階段，實用的技術相對比較單一，主要表現在名單過濾和關鍵字過濾技術基本成熟，而圖像過濾與模板過濾技術還處於起步階段，面臨著圖片的智慧型識別和過濾對機器或網路性能存在負面影響的障礙。現階段的內容過濾技術主要是對URL網址過濾和網頁文字等固定內容過濾，還無法做到智慧型的判斷，這是內容過濾技術在現階段的狀況。

現在的內容過濾產品使用黑名單、關鍵字和簡單模板相結合的判斷方式對不良內容進行過濾，但由於網際網路上的內容變化迅速，這就要求名單和模板能夠及時地更新，因此產品技術先進性的一個非常重要的指標就是生產商提供的黑名單庫大小和過濾的有效比率。

專家也認為，目前過濾技術大多在網路處理的套用層實現，適應性和安全性較差。基於網路層的實現，最大的挑戰有兩個方面：首先，套用層分析技術必須全面，因為直接對網路包進行套用層分析，需要充分了解需要過濾的所有套用在網路層是如何實現的，有多少種狀態，是否有特殊的實現等；其次，是實現兼容性，為實現與作業系統網路底層處理融合，需要充分了解作業系統網路實現機制，甚至替代部分功能，如何不影響作業系統的原有功能是相當困難的，特別是在Windows環境缺乏底層資料的情況下。

然而，儘管內容過濾技術和產品面臨一些困難和瓶頸，但是，隨著網路的發展，人們基於保護自身的需要而對“綠色網路空間”的呼喚，已經極大促進了“內容安全”產業的發展，據統計，美國內容過濾軟體整個市場每年的營業額達數十億美元。

網路內容過濾技術