Apache Parquet è un formato di archiviazione colonnare (columnar storage format) ottimizzato per l'uso con framework di elaborazione di big data. A differenza dei formati orientati alle righe (row-oriented), Parquet memorizza i dati per colonne, il che consente una compressione e una codifica dei dati estremamente efficienti. Questa archiviazione colonnare permette ai motori di query (query engines) di recuperare solo le colonne necessarie per una data interrogazione, riducendo significativamente l'I/O (Input/Output) e migliorando drasticamente le prestazioni delle query. Parquet è progettato per essere auto-descrittivo (self-describing), il che significa che lo schema è incorporato all'interno del file di dati stesso. Ciò elimina la necessità di archivi di metadati esterni e semplifica la gestione dei dati. Supporta un'ampia gamma di tipi di dati e strutture annidate complesse (complex nested structures). Parquet è ampiamente utilizzato nel data warehousing, nei data lake e in altre applicazioni di big data dove l'archiviazione e il recupero efficiente dei dati sono fondamentali. La sua integrazione con framework popolari come Apache Spark, Hadoop e Presto lo rende una scelta versatile per le pipeline di elaborazione dei dati. Il formato è ottimizzato per scenari in cui i dati vengono scritti una volta e letti molte volte (write-once, read-many).