ORC (Optimized Row Columnar) è un formato di file colonnare auto-descrittivo e consapevole del tipo (type-aware), specificamente progettato per i carichi di lavoro (workloads) in ambiente Hadoop. È ottimizzato per l'elaborazione e l'archiviazione di dati su larga scala, offrendo miglioramenti significativi nelle prestazioni e nell'efficienza di archiviazione rispetto ai formati tradizionali basati su righe, come i file CSV o di testo. I file ORC memorizzano i dati in un formato colonnare, il che consente il recupero efficiente di colonne specifiche senza la necessità di leggere l'intera riga. Questo è particolarmente vantaggioso per le query analitiche che richiedono solo un sottoinsieme dei dati. Il formato supporta anche diverse tecniche di compressione (ad esempio, Zlib, Snappy, LZO) per ridurre lo spazio di archiviazione e l'overhead di I/O. Inoltre, i file ORC includono metadati, come statistiche sui dati all'interno di ciascuna colonna, che permettono agli ottimizzatori di query di saltare blocchi di dati irrilevanti e migliorare ulteriormente le prestazioni delle query. ORC è ampiamente utilizzato negli ecosistemi di big data come Apache Hive, Apache Spark e Presto per l'archiviazione e l'elaborazione di grandi insiemi di dati.