En tiempos de los corpus

Por: Alma Alcántara

Quizá la pregunta que más se le hace a un egresado de Letras es cuál es la forma correcta de escribir o decir algo.

Aunque el estudio del español se ha teñido de la imagen prescriptiva, habría que reconocer el auge que han tenido los corpus en los últimos años. Ellos han permitido manejar una cantidad inmensa de información de manera ordenada y sintética: se han convertido en una herramienta imprescindible para realizar trabajos descriptivos y, de manera más cotidiana, se volvieron una fuente para sancionar qué usos son más preferibles.

Una búsqueda rápida a los eneagrama de Google podrían ayudar a indicar que “impreso” y “el calor” son preferibles frente a las formas “imprimido” y “la calor”.

Los corpus nos permiten partir de los usos del hablante para identificar el español que hemos de considerar como correcto… ¿Sí, no?

Quizá falta una pequeña acotación. Los eneagrama de Google para el español retoman los datos que les proporcionó el escaneo de libros. Para los corpus de la Real Academia Española, los libros y las notas periodísticas son las principales fuentes.

“La versión actual, la 0.99, cuenta con más de 357 000 documentos, que suman algo más de 381 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Más de cuatro millones y medio de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo” (CORPES XXI)

En la página informativa sobre el Corpus del Español del siglo XXI se tiene de manera explícita dos cuestiones; la primera, las formas ortográficas derivadas de transcripciones orales representan menos del 2% del total de formas ortográficas del CORPES XXI; la segunda, incluir transcripciones orales se vuelve complicado, no solo por la transcripción que implica, sino por los documentos en formatos de audio y video que deben integrarse para que cada usuario pueda  consultar el contexto de cualquier forma ortográfica.

Aunque el Corpes xxi y los eneagramas son herramientas gratuitas y de fácil acceso, habría que mantener en mente que no permiten (todavía) arrojarnos resultados que den cuenta de los registros formales y, también, de los usos en un registro coloquial, de fuentes orales, pues, como menciona Moreno Cabrera “El español no existe. Existe una lengua homogénea escrita. Pero eso no es una lengua natural, eso es una lengua artificial. Lo que existen son muchísimas variedades del español”.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: