什么是parquet文件?
生活随笔
收集整理的這篇文章主要介紹了
什么是parquet文件?
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Apache Parquet是Hadoop生態(tài)系統(tǒng)中任何項(xiàng)目均可使用的列式存儲(chǔ)格式,而與選擇數(shù)據(jù)處理框架,數(shù)據(jù)模型或編程語言無關(guān)。
parquet的起源:
我們創(chuàng)建Parquet是為了使Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目都可以使用壓縮的,高效的列式數(shù)據(jù)表示形式。
Parquet是從頭開始構(gòu)建的,考慮了復(fù)雜的嵌套數(shù)據(jù)結(jié)構(gòu),并使用了Dremel論文中描述的記錄粉碎和組裝算法。我們相信這種方法優(yōu)于嵌套名稱空間的簡(jiǎn)單扁平化。
?
文件格式
閱讀此文件以了解格式。
4-byte magic number "PAR1" <Column 1 Chunk 1 + Column Metadata> <Column 2 Chunk 1 + Column Metadata> ... <Column N Chunk 1 + Column Metadata> <Column 1 Chunk 2 + Column Metadata> <Column 2 Chunk 2 + Column Metadata> ... <Column N Chunk 2 + Column Metadata> ... <Column 1 Chunk M + Column Metadata> <Column 2 Chunk M + Column Metadata> ... <Column N Chunk M + Column Metadata> File Metadata 4-byte length in bytes of file metadata 4-byte magic number "PAR1"在上面的示例中,此表中有N列,分為M行組。文件元數(shù)據(jù)包含所有列元數(shù)據(jù)起始位置的位置。可以在舊文件中找到有關(guān)元數(shù)據(jù)中包含的內(nèi)容的更多詳細(xì)信息。
在數(shù)據(jù)之后寫入元數(shù)據(jù),以允許單遍寫入。
希望讀者首先讀取文件元數(shù)據(jù)以找到他們感興趣的所有列塊。然后應(yīng)順序讀取列塊。
這里只做簡(jiǎn)單介紹:
如果想細(xì)細(xì)了解,請(qǐng)這里走:
http://parquet.apache.org/documentation/latest/
總結(jié)
以上是生活随笔為你收集整理的什么是parquet文件?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据在未来十年将如何发展
- 下一篇: Spark _23 _读取parquet