當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

什么是parquet文件？

發(fā)布時(shí)間：2024/2/28 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了什么是parquet文件？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Apache Parquet是Hadoop生態(tài)系統(tǒng)中任何項(xiàng)目均可使用的列式存儲(chǔ)格式，而與選擇數(shù)據(jù)處理框架，數(shù)據(jù)模型或編程語言無關(guān)。

parquet的起源：

我們創(chuàng)建Parquet是為了使Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目都可以使用壓縮的，高效的列式數(shù)據(jù)表示形式。

Parquet是從頭開始構(gòu)建的，考慮了復(fù)雜的嵌套數(shù)據(jù)結(jié)構(gòu)，并使用了Dremel論文中描述的記錄粉碎和組裝算法。我們相信這種方法優(yōu)于嵌套名稱空間的簡(jiǎn)單扁平化。

文件格式

閱讀此文件以了解格式。

4-byte magic number "PAR1" <Column 1 Chunk 1 + Column Metadata> <Column 2 Chunk 1 + Column Metadata> ... <Column N Chunk 1 + Column Metadata> <Column 1 Chunk 2 + Column Metadata> <Column 2 Chunk 2 + Column Metadata> ... <Column N Chunk 2 + Column Metadata> ... <Column 1 Chunk M + Column Metadata> <Column 2 Chunk M + Column Metadata> ... <Column N Chunk M + Column Metadata> File Metadata 4-byte length in bytes of file metadata 4-byte magic number "PAR1"

在上面的示例中，此表中有N列，分為M行組。文件元數(shù)據(jù)包含所有列元數(shù)據(jù)起始位置的位置。可以在舊文件中找到有關(guān)元數(shù)據(jù)中包含的內(nèi)容的更多詳細(xì)信息。

在數(shù)據(jù)之后寫入元數(shù)據(jù)，以允許單遍寫入。

希望讀者首先讀取文件元數(shù)據(jù)以找到他們感興趣的所有列塊。然后應(yīng)順序讀取列塊。

這里只做簡(jiǎn)單介紹：

如果想細(xì)細(xì)了解，請(qǐng)這里走：

http://parquet.apache.org/documentation/latest/

總結(jié)

以上是生活随笔為你收集整理的什么是parquet文件？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：大数据在未来十年将如何发展
下一篇： Spark _23 _读取parquet