24 y 25 de octubre. Vemos...Los CORPUS.
Los corpus, empleados adecuadamente, nos permiten llegar a los textos de una manera única y extraordinariamente precisa.
Es interesante ver... Electronic tools for translators
Ventajas y desventajas del trabajo con corpus (PDF de 2 caras): http://www3.unileon.es/dp/dfh/Milka/LCII/Corpus2.pdf
El corpus ad hoc como herramienta de traducción (PDF): http://fel.uqroo.mx/adminfile/files/memorias/cortez_godinez_jose.pdf
Introducción
La idea de los corpus se maneja desde hace mucho tiempo. es una colección de textos agrupados con una finalidad determinada, como puede ser el estudio de autor, de lengua, estudios gramaticales, etc. En nuestro trabajo, nos interesan los corpus electrónicos que podamos manipular, ya que estos nos permiten movernos a gran velocidad e incorporar información extra.
Manejar las herramientas de análisis de corpus nos permite exprimir al máximo y con un tiempo más breve los textos que nos interesen.
Recientemente los corpus han cobrado muchísima más relevancia debido a su soporte electrónico, al uso de sistemas de búsqueda avanzados y de “inteligencia artificial”. En definitiva, son un excelente método para recuperar información y una ayuda indispensable para el traductor que se introduce en un ámbito nuevo que aún no domina.
Los corpus siguen unos criterios determinados de recopilación y se centran en un área específica del lenguaje. Pueden ser monolingües o multilingües. Cada corpus tendrá un objetivo específico.
La lingüística de corpus de desarrolla como una rama tecnológica interesante cuando se aplica al del procesamiento del lenguaje natural, es decir, aplicar la informática para aprovechar al máximo las propiedades de la lengua. Esta área en auge, en gran medida, debido a la revaloración actual que se está produciendo de la traducción automática.
Veamos un pequeño clip sobre como utilizar un corpus dedicado a lengua inglesa contemporánea
El corpus ad hoc
Es una colección de textos bilingüe que persigue un objetivo concreto. No consiste en la creación de grandes textos, sino que busca que seamos capaces de adquirir los conocimientos específicos de los que carecemos dentro de un área que nos sean necesarias para traducir cada texto. Hace décadas, se exigía a quienes traducían ser expertos en su campo y no en la actividad traslativa. Hoy en día, la información a la que podemos acceder a través de internet nos permite compensar nuestra falta de conocimientos y a encontrar los elementos de los que carezcamos.
TIPOS DE CORPUS:
Corpus comparable: son textos que pertenecen al mismo ámbito de especialidad y que además cumplen la misma función comunicativa. Ej: textos de química al cliente de productos cosméticos.
Corpus paralelos: están escritos en lenguaje natural y tienen un contenido semántico idéntico. También se denominan bitextos. En los bitextos, un texto es la traducción del otro, y las equivalencias se encuentran frase por frase, agrupando y alineándose. Un recurso muy potente y enormemente empleado.
Podemos hacer memorias de traducción de los bitextos mediante un sistema de comparación, reconocimiento y agrupación de textos. para ello, existen programas llamados “concordancers”, cuyas funciones van encaminadas a buscar concordancias dentro de los textos.
Buscar información: las ventajas y desventajas de Internet
La información académica estaba hace unos años en bases de datos de pago, pero cada vez se encuentran más abiertas, lo que permite al traductor encontrar cada vez informaciones más especializadas de mayor calidad.
Nuestra mayor debilidad es la abrumadora cantidad de información que se nos plantea. Desarrollar criterio de selección equivale a tener una mayor productividad y eficacia en las traducciones.
¿Cómo creamos un corpus propio? una vez hemos encontrados los textos los seleccionaremos y modificaremos para poder utilizarlos en traducción.
En la búsqueda de textos, recordemos, primará la calidad de los textos sobre la cantidad de estos. Para localizar aquellos textos idóneos para nuestra traducción el primer paso será hallar en nuestro texto origen las palabras clave, a través de las cuales movernos a otros textos. De ahí que nos resulten tan útiles, por ejemplo, los comandos de Google.
Por otro lado, los diccionarios, documentos estáticos, plantean equivalentes que tal vez no se utilicen en textos reales, y aquí los corpus nos son una herramienta de revisión y comprobación esencial.
PASOS EN LA CREACIÓN DE UN CORPUS
:
1. FASE DE RECOPILACIÓN: búsqueda de información
Algunos datos útiles sobre nuestras búsquedas:
Los tipos de buscadores que usamos pueden ser...
- Buscadores generalistas: como Google o Bing. Rastrean la red y presentan diferentes criterios unidos para mostrar las páginas. En primer lugar se sitúan las páginas que más se consultan. Pero hay muchos más criterios.
-
Buscadores temáticos: como Dmoz. Busca en áreas específicas a través de una restricción progresiva. Tiene ventajas: la clasificación es humana, hay expertos detrás. No es tan amplio, sin embargo, como un buscador generalista.
Valoración de la documentación:
Tendremos que tener algunos criterios en mente como la autoría del autor y su profesionalidad, la URL, la fecha de creación, la estabilidad de la página, la claridad de los datos, e incluso el diseño.
2. FASE DE ALMACENAMIENTO: sistema de recurso de los documentos descargados.
Conviene crear unos códigos que noy ayudarán a asociar rápidamente el mismo texto en distintas lenguas.Es interesante conservar el título del documento, la tipología textual. Clasificaremos los textos por áreas, grado de especialización, etc
En esta fase nos pueden ser útiles los OCR: sistemas de reconocimiento óptico de caracteres que reconocen el texto de los documentos escaneados.
3. FASE DE CONVERSIÓN: transformación de los archivos en un formato reconocible por los programas de gestión de corpus.
La gran mayoría de memorias funcionarán pasando los documentos a formato de texto. Conviene contar siempre con un conversor de PDF. Dentro del mundo de Adobe, algunos formatos nos causarán problemas como marces de línea. Cada conversor nos dará unas determinadas dificultades o facilidades.
Los juegos de caracteres son otro punto a tener muy en cuenta en nuestra conversión de texto.
4. FASE DE ALINEACIÓN: estructuración del material textual para facilitar su explotación
WordSmith es un programa de análisis de corpus textuales.Permite explotar grandes conjuntos de texto.Aprender a usar las WordSmith Tools es fácil con este artículo en español llamado "WordSmith Tools, un primer encuentro"
http://www.lexically.net/wordsmith/version4/guides/Spanishtutorial4WordSmithsite.pdf
WordSmith es un programa de análisis de corpus textuales.Permite explotar grandes conjuntos de texto.Aprender a usar las WordSmith Tools es fácil con este artículo en español llamado "WordSmith Tools, un primer encuentro"
http://www.lexically.net/wordsmith/version4/guides/Spanishtutorial4WordSmithsite.pdf
No hay comentarios:
Publicar un comentario