El uso de los corpus lingüísticos disponibles en Internet ... · zJergas de Habla Hispana (JHH)...
Transcript of El uso de los corpus lingüísticos disponibles en Internet ... · zJergas de Habla Hispana (JHH)...
CRE4 de diciembre de 2008Université de Montréal
“El uso de los corpus lingüísticosdisponibles en Internet como
herramienta pedagógica para la enseñanza-aprendizaje de ELE”
Elena [email protected]
Javier Vásquez [email protected]
Université de Montréal
CRE4 de diciembre de 2008Université de Montréal
Los Corpus en ELE: una nueva herramienta
Corpus: característicasAlgunos corpus…
Jergas de Habla Hispana (JHH)Así hablamos Corpus del españolCorpus Diacrónico del Español (CORDE)Corpus Referencia del Español Actual (CREA)Corpus del Español del Siglo XXIPresentación de otros corpus
¿Qué nos permiten hacer?Ventajas y desventajas
CRE4 de diciembre de 2008Université de Montréal
Los corpus…
Nacen gracias a la evolución de la informática
Son un nuevo medio actualmente disponible en Internet
Consisten en una fuente de ideas porque nos permiten conseguir material pedagógico fiable y real
CRE4 de diciembre de 2008Université de Montréal
¿Qué nos permiten obtener?Muestras de cuestiones gramaticalesEl uso real de una palabra o expresión en:
Un país determinadoLa obra de un autor En un cierto período de la historia del español
Contextualizar una palabra o expresión en relación a un tema específico
La evaluación computarizada de textosLa búsqueda de ejemplos reales para las clases de ELE
CRE4 de diciembre de 2008Université de Montréal
Características
Acceso gratuito
No es necesario un ordenador muy moderno
No se precisan conocimientos en informática
No se requiere de algún programa o de algo nuevo en nuestro ordenador
Consulta interactiva
CRE4 de diciembre de 2008Université de Montréal
Ventajas en comparación a un buscador
Respaldo académico
Datos lingüísticos fiables
Posibilidad de selección de varios criterios
Optimizar la búsqueda
Contextualizar los resultados
Terminar con la inevitable pérdida en el laberinto de Internet
CRE4 de diciembre de 2008Université de Montréal
Tipos de CorpusCorpus textual
Conjunto de textos seleccionados a través de uno o más criterios de homogeneidad
Corpus oralEstán constituidos por las transcripciones de los registros de la lengua habladaCorpus Oral y Sonoro del Español Rural(COSER)www.uam.es/coser
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispanawww.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
JHHJergas de Habla Hispana
www.jergasdehablahispana.org
CRE4 de diciembre de 2008Université de Montréal
Así hablamos
Diccionario latinoamericano
Permite apreciar la diversidad de nuestra lengua
Búsqueda del significado de una misma palabra en diferentes países o en un país determinado, usando el filtro por país
Característica: se construye con el aporte de los usuarios
http://www.asihablamos.com/
CRE4 de diciembre de 2008Université de Montréal
Filtros por paísBúsqueda de una palabra en un país en
particular
http://www.asihablamos.com/
CRE4 de diciembre de 2008Université de Montréal
Búsqueda por orden alfabético
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Buscar una palabra…Comparar: Jergas de Habla Hispana
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Objetivo: buscar el significado de una palabra en los diferentes países
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Actividad para la clase de ELE:
Realizar búsquedas variadasInvestigar el vocabulario general de un país determinadoComparar el uso de un vocablo entre diferentes culturasContextualizar el empleo de los términos con ejemplos
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Expresiones idiomáticas: Echar…
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Expresiones idiomáticas: Echar…
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Expresiones idiomáticas: Echar…
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Expresiones idiomáticas: Echar…
http://www.asihablamos.com
CRE4 de diciembre de 2008Université de Montréal
Corpus del españolDe Mark Davies
www.corpusdelespanol.org
CRE4 de diciembre de 2008Université de Montréal
CREA - CORDE Real Academia Española
Corpus de Referencia del Español Actual(CREA)
Escrito y oralMás de 150 millones de formas léxicasMás de ocho millones en la parte oralTextos: fechados a partir de 1975
Corpus Diacrónico del Español (CORDE)
EscritoCerca de 300 millones de formas léxicasTextos: hasta 1974
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
CREA - CORDE Real Academia Española
Ambos corpus contemplan todos los países de habla hispana
Abarcan todos los períodos del español, tanto en España como en América
Constituyen un importante recurso léxico de palabras disponibles para el idioma español
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
El Corpus de Referencia del Español Actual (CREA)
Permite extraer información para estudiar las palabras, sus significados y sus contextos
Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975
Procedencia de los textos escritos: libros, periódicos y revistas
Abarca más de cien materias distintas
Fuente: Real Academia Español
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
CREA : corpus oralConformado por transcripciones de documentos sonoros
Materiales: codificación de textos orales
Obtención de los documentos sonoros: diferentes convenios
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
El Corpus de Referencia del Español Actual (CREA) Corpus Diacrónico del Español (CORDE)
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
El Corpus de Referencia del Español Actual (CREA)
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Ejemplo: uso del subjuntivoEspero, deseo, quiero…
+ Verbo subordinado en subjuntivo:
≠ sujeto
Verbo subordinado en infinitivo:= sujeto
CRE4 de diciembre de 2008Université de Montréal
1ra. ventana: construcción del perfil de consultaEjemplo: uso del subjuntivo Deseo
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
3ra. ventana: visualización de los ejemplos
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
1ra. ventana: construcción del perfil de consultaEjemplo: uso del subjuntivo Deseo que
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
3ra. ventana: visualización de los ejemplos
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Ejemplo: expresión idiomática con partes del cuerpo “Meter la pata”
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
3ra. ventana: visualización de los ejemplos
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Uso del prefijo antiEscrito - Oral
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
3ra. ventanaLista de autores y obras
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Filtros
Reducción del númerode ejemplos
(no se puede recuperar demasiados documentos)
CRE4 de diciembre de 2008Université de Montréal
1ra. ventana: construcción del perfil de consultaEjemplo: verbo estar
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
2da. ventana: resultadosFiltros
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Tipos de filtros Filtro [Documentos]
Disminuye el número de documentos
Filtro [Casos]
Disminuye el número de ejemplos que se ofrecen en cada documento
CRE4 de diciembre de 2008Université de Montréal
Comodines: signos “?” y “*”
Uso de “comodines” en la formación de una palabra
“?” : sustituye a un carácter en una posición determinada
“*” : sustituye a cualquier número de caracteres
CRE4 de diciembre de 2008Université de Montréal
Ejemplo “?” : sustituye a un carácter en una posición determinada
ro ? a
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Ejemplo “*” : sustituye a cualquier número de caracteres
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
hiperconcebidas – hipersensibilidad –hiperesfera – hipertiroidismo – hipertensión –hipercreativos - hiperactiva -
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Corpus Diacrónico del Español (CORDE)
Corpus textualTextos: hasta 1974
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
Corpus Diacrónico del Español (CORDE)
RAEwww.rae.es/rae.html
CRE4 de diciembre de 2008Université de Montréal
NovedadNueva versión del CREA (textos de junio de 2008)
Se añade algo más de 3,5 millones de formas, correspondientes todas ellas al período, 2000-2004
El bloque que se incorpora en junio de 2008: corresponde fundamentalmente a la prensa americana
RAEwww.rae.es/rae.html
Fuente: Real Academia Español
CRE4 de diciembre de 2008Université de Montréal
Corpus del Español del Siglo XXI
Antecedentes: el CREA y el CORDE
Aumento del banco de datos léxicos iniciado en 1995
Primera fase: 300 millones de formas
Distribución:
Antes: 50% España y 50% América
Ahora: 30% España y 70% América
Materiales: investigación lexicográfica y gramatical del español
Fuente: Real Academia Español
CRE4 de diciembre de 2008Université de Montréal
BDSBase de datos sintáctico
del español actualwww.bds.usc.es/consultas/index.html
CRE4 de diciembre de 2008Université de Montréal
Base de datos sintácticodel español actual
www.bds.usc.es/consultas/index.html
CRE4 de diciembre de 2008Université de Montréal
Base de datos sintácticodel español actual
www.bds.usc.es/consultas/index.html
CRE4 de diciembre de 2008Université de Montréal
Base de datos sintácticodel español actual
www.bds.usc.es/consultas/index.html
CRE4 de diciembre de 2008Université de Montréal
Base de datos sintácticodel español actual
www.bds.usc.es/consultas/index.html
CRE4 de diciembre de 2008Université de Montréal
Universidad Autónoma de Madrid
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Lista de corpus
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus Oral de Referencia de la LenguaEspañola Contemporánea
(CORLEC)
Características:
Base de datos textual (corpus de lengua hablada).
Transliteración de textos grabados en cintas de audio del registro oral.
1.100.000 palabras en soporte informático.
Comienzo de la elaboración del corpus: enero de 1991.
Finalización de su realización: febrero de 1992.
Director: Francisco Marcos Marín Catedrático de Lingüística General de la Universidad Autónoma de Madrid
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus Oral de Referencia de la LenguaEspañola Contemporánea
(CORLEC)
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Muestra del corpus
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus Oral de Referencia de la LenguaEspañola Contemporánea
(CORLEC)
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus de Referencia de la Lengua Española en la Argentina
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus de Referencia de la Lengua Española en la Argentina Universidad Autónoma de Madrid (UAM)
CRE4 de diciembre de 2008Université de Montréal
Corpus de Referencia de la Lengua Española en Chile
http://www.lllf.uam.es/esprincipal.html
CRE4 de diciembre de 2008Université de Montréal
Corpus de Referencia de la Lengua EspañolaContemporánea: corpus escritodel español en la República de Chile
Dirigido: por Francisco Marcos-Marín
Coordinado: por Ernesto Evans Espiñeira
Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) con el patrocinio de la Sociedad Estatal del QuintoCentenario.
CRE4 de diciembre de 2008Université de Montréal
Corpus Histórico del Español de México (CHEM)
http://www.iling.unam.mx/chem
CRE4 de diciembre de 2008Université de Montréal
Corpus Histórico del Español de México (CHEM)
Corpus diacrónico de español de México
Reúne una colección de documentos
Período: entre los siglos XVI y XIX
Información cuantitativa y cualitativa de naturaleza variada
Se requiere registrarse en la base de datos
http://www.iling.unam.mx/chem/
CRE4 de diciembre de 2008Université de Montréal
Requerimiento: registrarse como usuario
http://www.iling.unam.mx/chem/
CRE4 de diciembre de 2008Université de Montréal
Corpus Histórico del Español de México (CHEM)
http://www.iling.unam.mx/chem/
CRE4 de diciembre de 2008Université de Montréal
¿Qué podemos hacer?Documentar con rapidez y seguridad
Frecuencia de uso de:Palabra/sPrefijosSufijosAgrupaciones de palabrasExpresiones idiomáticas
Documentar el contexto situacional
Combinar diferentes variables:Autor ObraAño o intervalo de añosÁrea temática País
CRE4 de diciembre de 2008Université de Montréal
Algunas sugerencias…
Buscar el uso frecuente de palabras o construcciones en los libros de textos y lecturas recomendadas
Corregir barbarismos o malos usos lingüísticos (errores más repetidos, construcciones no normativas, léxico mal usado, grafías incorrectas, etc.)
CRE4 de diciembre de 2008Université de Montréal
Más ideas…Contextualizar una palabra o expresión en relación a un tema específico
Obtener términos que comiencen o terminen por un determinado prefijo, sufijo
Consultar el empleo de ciertas expresiones idiomáticas en diferentes países
CRE4 de diciembre de 2008Université de Montréal
Otros usos…
Comparar el uso de un vocablo entre el oral y el escrito
Indagar los rasgos contextuales que acompañan una palabra o expresión
Sistematizar el conocimiento intuitivo ante algo que “suene extraño”, pero no se sepa exactamente el motivo