Estadísticas del Repositorio del CELL, COLMEX

El corpus cuenta en este momento con documentos clasificados en catorce géneros distintos.

Sin clasificación
5.17%
Ciencias
69.479%
Discurso político
0.554%

La distribución de los géneros dentro del corpus se expresa en términos de su tamaño relativo (rj).

El corpus cuenta con 27'089 vocablos

Vocablos distintos

6'974

Vocablos repetidos

20'115

El corpus está compuesto por documentos entre los años 1977 y 2012. En el gráfico se pueden observar la cantidad de tokens en cada año donde el corpus cuenta con documentos.