Corpus lingüístico

Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas). Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus[1] tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.

Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la complicación de los corpus han llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.[2]

La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica.

Aplicación de los corpus

Los corpus lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian. Este tipo de corpus cada vez cuenta con más partidarios, y gracias al estudio de la lengua que estos corpus ofrecen, algunos postulados lingüísticos que contaban con un gran respaldo dentro de la comunidad lingüística, han sido puestos en duda.[3]

Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.

Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clásico Computational Analysis of Present-Day American English (Análisis computacional del inglés estadounidense de la actualidad), a partir del corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Other Languages
Afrikaans: Tekskorpus
العربية: مجموع نصوص
беларуская: Корпус тэкстаў
беларуская (тарашкевіца)‎: Корпус тэкстаў
čeština: Jazykový korpus
Deutsch: Textkorpus
Ελληνικά: Σώμα κειμένων
English: Text corpus
Esperanto: Korpuso
euskara: Testu corpus
suomi: Korpus
français: Corpus
हिन्दी: पाठसंग्रह
magyar: Korpusz
italiano: Corpus
日本語: コーパス
Bahasa Melayu: Korpus
Nederlands: Corpus (taalkunde)
norsk bokmål: Tekstkorpus
slovenčina: Korpus (jazykoveda)
slovenščina: Besedilni korpus
中文: 语料库
粵語: 語料庫