ORC (Optimized Row Columnar) est un format de fichier colonnaire auto-descriptif et sensible au type, spécifiquement conçu pour les charges de travail (workloads) Hadoop. Il est optimisé pour le traitement et le stockage de données à grande échelle (large-scale data processing), offrant des améliorations significatives en termes de performance et d'efficacité de stockage par rapport aux formats traditionnels basés sur les lignes (row-based) comme CSV ou les fichiers texte. Les fichiers ORC stockent les données dans une structure colonnaire, ce qui permet une récupération extrêmement efficace de colonnes spécifiques sans nécessiter la lecture de la ligne entière. Ceci est particulièrement avantageux pour les requêtes analytiques qui ne requièrent qu'un sous-ensemble des données disponibles. Le format prend également en charge diverses techniques de compression (par exemple, Zlib, Snappy, LZO) afin de minimiser l'espace de stockage et de réduire la surcharge d'E/S (I/O overhead). De plus, les fichiers ORC intègrent des métadonnées, y compris des statistiques détaillées sur les données au sein de chaque colonne, ce qui permet aux optimiseurs de requêtes de sauter les blocs de données non pertinents et d'améliorer considérablement la performance globale des requêtes. ORC est largement adopté dans les écosystèmes de big data tels qu'Apache Hive, Apache Spark et Presto pour le stockage et le traitement de vastes ensembles de données.