ORC (Optimized Row Columnar, ou Colunar Otimizado por Linha) é um formato de arquivo colunar autodescritivo e ciente de tipos, especificamente projetado para otimizar cargas de trabalho em ambientes Hadoop. Sua principal característica é a otimização para o processamento e armazenamento de dados em larga escala, proporcionando melhorias substanciais tanto no desempenho quanto na eficiência de armazenamento, especialmente quando comparado a formatos tradicionais baseados em linha, como arquivos CSV ou de texto simples. A estrutura colunar dos arquivos ORC permite que os dados sejam armazenados de forma que a recuperação de colunas específicas seja extremamente eficiente, eliminando a necessidade de ler a linha inteira. Este recurso é particularmente vantajoso para consultas analíticas, onde frequentemente apenas um subconjunto dos dados é relevante. Adicionalmente, o formato ORC integra suporte a diversas técnicas de compressão, como Zlib, Snappy e LZO, o que contribui significativamente para a redução do espaço de armazenamento e da sobrecarga de E/S (Entrada/Saída). Outro ponto forte é a inclusão de metadados, que contêm estatísticas detalhadas sobre os dados em cada coluna. Esses metadados são cruciais para otimizadores de consulta, que podem utilizá-los para pular blocos de dados irrelevantes, resultando em uma melhoria ainda maior na performance das consultas. Devido a essas vantagens, o ORC é amplamente adotado em ecossistemas de big data, incluindo plataformas como Apache Hive, Apache Spark e Presto, para o armazenamento e processamento eficiente de grandes volumes de dados.