El Repositorio de corpus del Centro de Estudios Lingüísticos y Literarios del Colegio de México, es un depósito abierto de materiales documentales de diversos tipos, como algunos corpus electrónicos representativos de diversos géneros, registros y estadios del español escrito y hablado en México y textos sueltos que enriquecen la documentación del uso de ciertos vocablos en diversos contextos.
Varios de los materiales que forman parte del repositorio son los corpus del Centro de Estudios Lingüísticos y Literarios de El Colegio de México: el Corpus del Español Mexicano Contemporáneo (CEMC 1921-1974), y su segunda versión con documentos de finales del siglo XX y principios del XXI (CEMC II), el Corpus Básico Científico del Español Mexicano (COCIEM) y el Corpus Sociolingüístico de la Ciudad de México (CSCM), que también pueden consultarse por separado desde sus propios sitios de Internet.
Una de las ventajas de agrupar todos estos materiales es la posibilidad de hacer consultas conjuntas que permiten obtener estadísticas globales en todo el repositorio. Para esto, hemos adoptado la estructura de géneros del CEMC, lo cual nos permite medir la dispersión de las palabras y obtener frecuencias ajustadas a los tamaños de los géneros, que resultan particularmente desequilibrados por la acumulación de materiales tan heterogéneos.