La necesidad de un repositorio para el Diccionario del Español de México (DEM) surgió de la disponibilidad de diversas colecciones de muestras textuales, que documentan el uso del vocabulario del español de México, y la posibilidad de articularlas para obtener información estadística unificada de todas ellas, juntas o por separado. Así, además del corpus que sirvió de base para la elaboración del diccionario, el Corpus del Español Mexicano Contemporáneo (CEMC) y su nueva versión (CEMC II), cuya compilación fue coordinada por Luis Fernando Lara, se reúnen en el repositorio otras valiosas colecciones como el Corpus Básico Científico del Español Mexicano (COCIEM), recopilado por María Pozzi, y el Corpus Sociolingüístico de la Ciudad de México (CSCM), bajo la responsabilidad Pedro Martín Butragueño, entre otras.
Naturalmente, los materiales reunidos son muy heterogéneos. Por ejemplo, mientras que el CEMC y el CEMC II son secuencias de párrafos elegidos al azar (de cada fuente) de alrededor de 2,000 palabras cada una (de diversos niveles de español escrito y hablado en México), el COCIEM está constituido por libros de texto (de primaria, secundaria y preparatoria) y el CSMC contiene transcripciones completas de entrevistas a hablantes de diferentes niveles y diversas edades. Hay además un conjunto de textos sueltos y fragmentos de textos, desvinculados de toda colección representativa de algún fenómeno lingüístico, como los materiales mencionados, pero que enriquecen la documentación del uso de ciertos vocablos en diversos contextos y que apoyan las investigaciones de los lexicógrafos redactores del DEM.
Una de las ventajas de agrupar todos estos materiales es la posibilidad de hacer consultas conjuntas que permiten obtener estadísticas globales en todo el repositorio. Para esto, hemos adoptado para todo el repositorio la estructura de géneros del CEMC, lo cual nos permite medir la dispersión de las palabras y obtener frecuencias ajustadas a los tamaños de los géneros, que resultan particularmente desequilibrados por la acumulación de materiales tan heterogéneos.
Son catorce los géneros del CEMC, correspondientes a los usos de tradición culta y de tradición popular mexicanos: literatura, periodismo, obras científicas y técnicas, discurso político y religioso, conversaciones cultas, literatura y lírica popular, habla coloquial, textos de conversaciones por regiones del país, documentos etnográficos, jergas de delincuentes y de jóvenes, y conversaciones populares (ver Lara, Ham Chande y García Hidalgo, Investigaciones lingüísticas en lexicografía, El Colegio de México, México, 1979).
Si los géneros del primer CEMC ya eran desiguales en extensión, en el repositorio, con semejante aglomeración de materiales, lo son aún más. Por ejemplo, todo el COCIEM entra dentro del género de obras científicas y el CSCM se reparte entre los géneros de habla culta, media y popular.
Afortunadamente, a pesar de este enorme desequilibrio entre los géneros del repositorio, las fórmulas de cálculo estadístico que se diseñaron para construir la base estadística del CEMC también se pueden aplicar aquí. En esencia, estas fórmulas miden no sólo la mayor o menor frecuencia absoluta de uso de los vocablos, sino también las maneras en que se reparten entre los géneros y el cálculo de su dispersión: el de “frecuencia corregida” (KF), que correlaciona la frecuencia absoluta con la dispersión de cada vocablo y el tamaño desigual de los géneros, y el “índice normalizado de dispersión” (C), que evalúa cada vocablo en una escala de uso de cero a uno, en la que los vocablos con índice cercano a uno son los más usuales.