批量數據處理

批量數據處理的基本流程是: 首先從資料庫中讀取批量數據,經過計算處理,最後以圖形方式或數據檔案方式輸出。

基本介紹

  • 中文名:批量數據處理
  • 外文名:Batch data processing
  • 性質:數據處理
  • 學科:跨學科
  • 目的:大批量處理數據
  • 類型:計算機科學
介紹,方法,

介紹

在數據倉庫和大中型資料庫的實際套用中,有許多行業需要大批量處理數據。例如一般情況下,機構是根據行政區域來設定的,而業務則是根據服務種類來劃分,但發展趨勢和方向是要不斷適應當今資訊時代數據大集中的要求,所以要求數據必須進行全集中管理。全集中管理的數據有:國家級、省部級、廳級的匯總數據;教育、公安、金融、稅務等行業的數據;大型企業所管理的龐大的產品數據和交易數據;社會管理、城建等方面產生的大規模共性數據等。隨著數據從不同平台處於離散、不統一和不規範的分布狀況,向著數據的大集中或大集成的方向轉變,從海量數據中提取大數據集進行快速地批量處理有廣泛的實際需求。在數據大集中的發展趨勢下,如何從海量數據中抽取具有共性特徵的數據集,並對這些具有共性特徵的數據集進行快速互動地批量處理或批量加工,將是管理信息系統中日益突出的問題,也是數據集中工程中亟待解決的問題。如果儘早地研究類似的業務需求和技術方法,就能解決大型資料庫大規模數據更新過程中數據處理效率不高的問題,保證數據處理的及時性和可靠性,從而提高使用計算機信息系統的經濟效益和社會效益。
批量數據處理的基本流程是: 首先從資料庫中讀取批量數據,經過計算處理,最後以圖形方式或數據檔案方式輸出。在高性能伺服器或工作站平台下,大批量數據可以集中高效處理。

方法

海量數據快速批量處理的總體過程是:對海量數據任意條件抽取的大數據集進行批量更新或修改;對有大批量添加的需求,先進行大批量記錄的添加,再進行批量修改,使得數據的處理和加工是以計算機大批量管理為主。這個過程是按照既定的流程智慧型化和自動化地完成。批量處理過程中出現的錯誤描述將記錄在日誌檔案中,既不影響批量處理,又可進行事後審計。
批量數據抽取
數據集的篩選和過濾過程:
(1) 建立數據集篩選的查詢條件
設計數據查詢生成器通用構件,在進行數據批量處理的工作之前,調用數據查詢生成器視窗,選擇組合查詢條件,建立查詢表達式。
(2) 得出數據記錄集
根據查詢表達式,有直接從資料庫中抽取方式和從記錄結果集中繼續過濾兩個步驟,循環地進行數據的抽取和過濾,直至得出所希望的數據記錄集。
(3) 得到最終需要批量處理的數據結果集
從上面產生的數據記錄集中,提供手工選擇界面,剔除個別不需要處理的記錄,進行數據的最後抽取,最終得到需要批量處理的數據結果集。
用事件進行批量數據處理
用事件進行數據批量處理分為批量增加和批量修改兩種。
批量刪除是批量修改的特例。批量增加又分為主表的批量增加和關係表子集批量增加。主表的批量增加使得主表記錄批量增加後,只需修改較少數據的操作即可達到大批量數據快速錄入的目的。關係表子集的增加使得子集表記錄批量增加後,不但能達到大批量數據快速錄入的目的,而且還能保證事件觸發所產生的其他子集表中數據的同步性和一致性。如在檔案系統中,關係表子集指學歷子集、職務子集、工資子集等幾十種子集。
主表的批量增加過程為: ①使關鍵字序號自動增加,輸入批量循環執行的次數; ②增加第一條主表記錄並用數組記錄不為空的欄位記錄,用於循環執行時賦值給批量增加的欄位記錄; ③執行主表的批量增加事件。
關係表子集的批量增加過程為: ①在現有系統主選單中增加批量處理項; ②抽取需要批量增加的主表數據集; ③在主表第一條記錄對應的子集中增加一條記錄,並用數組記錄不為空的欄位記錄,用於賦值給批量增加的欄位記錄; ④執行子集的批量增加事件。
主表的批量修改與關係表子集的批量修改過程為: ①抽取需要批量修改的數據集; ②用數組記錄第一條記錄中被修改了的欄位,用於賦值給批量修改的欄位; ③執行對應的批量修改事件。
編寫專用的事件和函式來執行數據批處理任務。在批量處理中還需要對日期型格式、數字型格式和字元型格式分別進行判斷和處理。
用結構查詢語句進行批量數據處理
另一種方法是使用SQL 語句實現數據的批量處理。利用過濾操作得到的條件,作為SQL 語句的WHERE 部分數據抽取的條件,利用提取首條表單的數據操作改變的一組數據作為INSERT ,UPDATE 的操作改變的對象。如果不進行相關大量的額外開發工作,這一方法就難以保證子集表中數據之間的同步性和一致性。

相關詞條

熱門詞條

聯絡我們