零部件數據處理系統

零部件數據處理系統

零部件數據處理系統是汽車零部件信息查詢平台搭建的重要基礎。它包括數據格式分析、數據讀取、數據清洗、數據轉換、數據驗證、數據分析、數據入庫等部分。

雖然它針對的是零部件行業,但從結構上來說是可以推廣到其他套用行業的。零部件數據處理或者說數據處理核心價值是提高大批量數據處理的能力,保證數據的準確性。

基本介紹

  • 中文名:零部件數據處理系統
  • 外文名:parts data processing system
  • 領域:零部件行業
  • 意義:零部件信息查詢平台搭建的基礎
  • 內容:數據格式分析、數據讀取等
  • 數據處理單元:輸入、輸出、執行實體
背景,零部件數據處理,目的,內容,零部件數據處理系統的總體結構,數據處理單元,數據的輸入、輸出,數據處理的執行實體,

背景

汽車是一個複雜的系統,其間近千種零部件在工作,這些零部件運轉的數據信息來源多樣,格式不同,因此,對汽車的技術研發人員來說,要掌握這些供研發使用,就必須建設一個可向汽車產業人士開放的多語言多生產體系對應的汽車零部件名稱信息查詢平台;在這個數據平台上,同時可以查詢關聯技術、典型圖例、配套車型、零部件編號、產品品牌、生產廠家名稱等信息,形成一個開放性的網路資料庫服務。
而要對這么多來源的數據源信息進行整合併開發出一個平台,勢必要進行數據處理——數據清洗、數據轉換、及數據驗證算法等,即需要零部件數據處理系統。

零部件數據處理

目的

零部件數據處理的目的,有兩個方面的含義,其一是得到標準的零部件數據,標準指各項屬性符合規範,如日期數據含有年月日信息。品牌數據對於不同的語言如福特,針對中文品牌,Ford針對英文(或國際)品牌。同樣,福特蒙迪歐和福特嘉年華針對的是中文的車型;其二是發現新的零部件辭彙,並將新的零部件名稱添加到辭彙表中,用於零部件搜尋。

內容

零部件數據處理主要分為數據格式分析、數據讀取、數據清洗、數據轉換、數據驗證、數據分析、數據入庫等部分。在處理過程中,數據首先需要經過格式分析,以確定數據讀取的方式,數據的讀取根據匹配的格式規則進行;數據清洗和轉換是將數據中的垃圾信息清除,並將數據變為標準數據。如“嘉年華3廂”和“嘉年華三廂”是典型的零部件數據的中文車型,這兩個數據需要對應到標準的“福特嘉年華三廂”,稱這類標準數據為主數據;最後對轉換後的數據進行必要的驗證,以確保數據的一致性。如零部件數據的車型數據應和品牌數據一致。否則可能出現車型是“福特嘉年華三廂”而品牌卻為“上海通用別克”的笑話。此外數據分析的目的,是發現零部件新的辭彙,根據固定辭彙搭配及出現的頻率,自動篩選出新的辭彙。

零部件數據處理系統的總體結構

零部件數據處理系統的總體結構如圖1,淺色部分為處理的數據處理單元。數據輸入到平台中,依 此 經 過:
圖1 零部件數據處理系統的總體結構圖1 零部件數據處理系統的總體結構
(1)數據格式分析:對輸入數據的格式進行分析,以確定數據讀取的對應方式;
(2)數據讀取:根據格式分析處理單元得到的格式,讀取數據;
(3)數據清洗:根據清洗規則,將數據中含有的非法字元、控制字元過濾;
(4)數據轉換:根據轉換規則將數據轉換為標準數據;
(5)數據驗證:根據數據驗證規則將一條的數據記錄中不同的數據屬性進行比較,查找屬性相互矛盾的數據記錄;
(6)數據分析:根據主數據,及出現頻率達到一定值的數據確定為新出現的詞,供人工審核後入庫;
(7)數據入庫:將處理完成的數據如正式庫。
數據處理單元,在處理完成後,會將處理的狀態寫入處理日誌。人工控制台隨後讀取數據處理日誌,對相關數據進行人工處理。人工處理根據數據的性質不同主要分為錯誤數據處理和基礎數據的更新。錯誤數據處理,是指對數據本身進行維護,如日期寫成09-01-28,顯然數據指2009年1月28日。此外還需要對基礎數據進行維護,上述數據的出現主要在數據轉換中出現了問題,現有的轉換規則不能識別09-01-28這樣的日期數據,需要將新發現的規則加入到基礎數據的轉換規則中去。

數據處理單元

每一個數據處理單元具有相似的結構。實際上在真實的環境中,數據在一個處理單元處理完後,需要將一些相關的信息提交給下一個處理單元,而不僅僅是處理的結果數據。
圖2 數據處理單元圖2 數據處理單元
如圖2所示,處理單元輸入由輸入數據、處理單元報表和數據更新通知三個部分組成;同樣它的輸出由輸出數據和其他兩類組成;中間部分為處理單元的執行實體。

數據的輸入、輸出

輸入數據是上一個處理單元處理成功的數據;處理單元報表是本次數據的處理狀態統計,含有本次處理的輸入數 據 量、處理成功數量、錯誤數據數量、不能識別的數據量、人工更新數量、基礎數據修改數量等信息,它的詳細信息在數據、基礎數據和日誌的內部。處理單元報表建立的主要目的是監控數據的處理狀態,使數據處理的過程可以從結果中追述;數據更新通知,是指上一個處理單元中的錯誤數據或不能識別的數據經過人工修改後,成為成功的數據,這類數據在上一個處理單元前次處理中並沒有作為輸入進入到本處理單元中,因此需要本處理單元重新處理。
其中,基礎數據是規則和主數據的統稱,規則含格式規則、清洗規則、轉換規則和驗證規則四個部分。

數據處理的執行實體

數據輸入到數據處理單元後,首先由數據處理核心單元進行處理,過程中需要讀取基礎數據,並對輸入數 據 進 行 運 算,將結果數據輸出。然後更新數據處理日誌和基礎數據日誌。日誌中含需要人工處理的信息,人工處理過程中,如需要對基礎數據進行修改,則更新基礎數據。

相關詞條

熱門詞條

聯絡我們