1.針對一堆非結構化資料,比如word里以表格形式存盤的資料,想要對這些檔案的資料進行查詢和形成常見統計分析,是不是還要把非結構化的資料轉化為結構化資料?
2.假設一個情景
教育廳每年會收到很多高校以word上報的資料,word中有一部分學生成績資料是表格,類似:
這種資料背景下我想做一個查詢功能,用戶可以設定查詢條件,并且設定計算結果(比如總計人數、成績平均值之類的)
我的疑問:
1.要實作這個功能是不是還是要把word檔案里的資料結構化存盤?
2.用大資料架構如何實作?
uj5u.com熱心網友回復:
1,嚴格意義上講Word 里的不叫資料,只能叫文字。通常的做法時先將 Word 轉換成 Excel 比如 (CSV) 格式,然后再進行其他處理2,取決與上報的 Word 檔案是不是統一的格式,如果是,就可以用Word 和 Excel 里的 小程式做批量處理了。
至于要不要將Excel 的資料結構化處理,那要看資料本身和什么樣的系統方案了,如果是 T 或者 P 級別的資料,基本上不需要結構化(但是需要格式化),現在的大資料平臺處理很容易。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/72079.html
標籤:數據倉庫
