6.07.2005

Recuento de pares de palabras (según Jorge Stolfi)

Por primera vez en castellano, este trascendente artículo de Jorge Stolfi (profesor en la Universidad de Stanford). El mismo fue publicado en 1997 por la Universidad de Campinas, Brasil.
Traducción: Marcelo Dos Santos.



Recuento de pares consecutivos de palabras en voynichés y otras lenguas
por Jorge Stolfi
Las tablas incluidas muestran el número de veces que aparece cada par de palabras en posiciones consecutivas en la Sección Biológica del Manuscrito Voynich.
Como siempre sucede, los datos presentan cantidades de extraños patrones de conducta pero ninguna conclusión definitiva. Por lo menos, esos patrones sugieren que el texto es en realidad un lenguaje natural y no jerigonza al azar.
Una característica obvia en la tabla es que las palabras que tienen estructuras similares parecen tener también parecidas distribuciones de vecindad.
Además, hay algunas palabras que son inesperadamente comunes al final de los renglones o al principio de los mismos. Otras palabras parecen evitar esas posiciones. Sospecho que este efecto se debe al hecho de que muchos finales de línea son también finales de párrafos y por lo tanto, finales de frases. Desafortunadamente, muchos espacios entre párrafos parecen haber sido omitidos en las transcripciones de Currier y del Primer Grupo de Estudio (FSG), por lo que estos datos son especialmente vagos.
Texto Fuente
Los recuentos fueron obtenidos de la Sección Biológica entera (f75r a f84v), escrita en lenguaje Currier B. La versión utilizada fue un "consenso" de nivel de trazo mecánico entre las transcripciones de Currier y el FSG.
El texto consta de 7054 palabras, incluyendo las marcas de final de línea (//) y de fin de párrafo (=).
Las palabras que incluyen caracteres inválidos, como asimismo las que son transcriptas de modo diferente por Currier y el FSG, fueron mapeadas con la palabra especial (???).
Codificación de caracteres
El texto fue codificado con una codificación de nivel de trazo ad-hoc (sí, otro diferente), con identificación clara de ciertas letras fáciles de confundir e ignorando diferencias que yo creo que son sólo variaciones caligráficas.
La codificación está realizada básicamente con el alfabeto Frogguy, con los siguientes cambios.
Más abajo en esa página se ve la diferencia entre mi codificación y la original del FSG.

Como la correspondencia es ambigua ex profeso, no se podría mapear fácilmente el texto para volverlo a la forma original del FSG.
Estructura de la tabla
La tabla completa de frecuencias de pares de palabras hubiese sido enorme (cerca de 850 x 850) pero bastante poco poblada, con menos de 7000 entradas válidas). Para mantener el archivo de salida en niveles más compactos pero legibles, particioné el vocabulario en un pequeño juego de palabras claves de alta frecuencia de aparición, y otro juego mucho más grande de palabras no clave.
La tabla de frecuencias de pares de palabras se dividió entonces en cuatro secciones: clave x clave; clave x no clave; no clave x clave y no clave por no clave. Sólo las tres primeras fueron procesadas e impresas: la primera mide más o menos 25 x 25 entradas y las otras dos aproximadamente 25 x 830.
La lista de palabras clave utilizadas para este proceso se encuentra aquí.
Receta para UNIX
Para armar las tablas, usé los siguientes comandos de UNIX:
cat infile.wds \
gawk ' BEGIN { want = "="; } \
/./ { print want, $0; want = $0; next; } \
' \
count-diword-freqs \
-v rows=nonkeys.dic \
-v cols=keys.dic \
El archivo infile.wds contiene el texto de entrada, una palabra por línea.
El comando count-diword-freqs es otra secuencia de comandos que tiene la misión de contar las ocurrencias de cada par de palabras e imprime la tabla ya formateada a stdout.
Los archivos auxiliares keys.dic y no-keys.dic contienen los dos juegos de palabras, a una palabra por línea.
Las tablas de aparición de pares de palabras en la Sección Biológica se encuentran aquí:
La entrada en la fila xxx y la columna yyy representa el número de veces que la palabra xxx se encuentra inmediatamente delante de la palabra yyy en el texto ingresado.
La fila y la columna tituladas TOT muestran el número total de apariciones de cada palabra en el archivo entero, y no solamente en esta sección de la tabla.
Aquí se ve la segunda parte de la tabla. La entrada en la fila xxx y la columna yyy representa el número de veces que la palabra xxx se encuentra inmediatamente delante de la palabra yyy en el texto ingresado.
La fila y la columna tituladas TOT muestran el número total de apariciones de cada palabra en el archivo entero, y no solamente en esta sección de la tabla.
Las filas están ordenadas en orden alfabético inverso (última letra, penúltima, etc.).
Nótese que parece haber aquí cierta correlación entre el final de una palabra (específicamente las últimas dos letras) y la siguiente palabra clave. Obsérvese también que las palabras con ciertas terminaciones se encuentran con mucha más frecuencia al final de las líneas que en otras posiciones.
Aquí está la tercera parte de la tabla. Por obvias razones tipográficas, esta sección ha sufrido una transposición, de modo que la entrada de la fila xxx y la columna yyy es el número de veces que la palabra no clave xxx se encuentra después de la palabra yyy en el texto de entrada.
La fila y la columna tituladas TOT muestran el número total de ocurrencias de cada palabra en el archivo entero y no solamente en esta sección de la tabla.
Aquí, las filas han sido ordenadas por el número total de apariciones de las palabras no claves.


Conteo de pares de palabras en un texto inglés
Para poner los datos en perspectiva y por razones de comparación, aquí hay una tabla análoga para un breve texto en inglés (las primeras 4661 palabras de un libro policial, en minúscula y sin signos de puntuación).
Con el mismo objeto, incluyo una tabla para un pequeño texto escrito en portugués (las primeras 7000 palabras de una tesis de master acerca de modelos gráficos, en minúscula y sin signos de puntuación). Todas las fórmulas y números fueron mapeados como la palabra especial (???).

0 Comments:

Publicar un comentario

Links to this post:

Crear un vínculo

<< Home