7.05.2005

Diagramas de distribución de frecuencias de palabras y caracteres

Presentamos hoy, por primera vez en castellano, este extraordinario trabajo de Jorge Stolfi, donde muestra gráficamente la distribución de palabras en el Manuscrito Voynich.
Traducción: Marcelo Dos Santos. Pique en las imágenes para ampliar.

Diagramas de Distribución de Frecuencias
por Jorge Stolfi

Este documento presenta un grupo de diagramas que muestran las similitudes y diferencias entre varias secciones del Manuscrito Voynich, basados en las frecuencias relativas de palabras y caracteres en cada página. La distribución de págionas demuestra estar fuertemente agrupada, y los grupos corresponden con bastante exactitud a la división tradicional de las secciones.

Trabajos relacionados
Estos gráficos pueden ser considerados una reproducción independiente de los de Rene Zandbergen, presentados en la Conferencia Teddington, específicamente los de la sección titulada "Características Lingüísticas". Los gráficos en sí son bastante parecidos, pero, curiosamente, hemos obtenido conclusiones casi opuestas: mientras que Rene piensa que los gráficos confirman la unidad y el cambio gradual, yo veo agrupaciones discretas y claros huecos. Pero eso puede deberse simplemente a huecos y fallas en mis datos...
En lo general, estos diagramas encajan dentro de la serie de intentos por clasificar las páginas del manuscrito mediante distintos criterios estadísticos. Podemos mencionar aquí la imagen de matriz de distancias elaborada por Rene en su trabajo original sobre el tema, vuelta a ordenar en los papeles de Teddington, los dendrogramas realizados por Karl Kulge y Gabriel Landini, y las tabulaciones informales de muchos otros colaboradores.


Cuadernos de notas de laboratorio
El lector verdaderamente curioso puede revisar mis cuadernos de laboratorio, que contienen las recetas UNIX para elaborar estos diagramas y los archivos de datos utilizados.
Diagramas basados en palabras: [
recetas] [archivos]
Diagramas basados en elementos: [
recetas] [archivos]

Los diagramas
Todos los diagramas lucen parecidos a este:


Cada cuadrado representa una página del manuscrito. Sus coordenadas se derivan de la frecuencia relativa de ciertas palabras, letras, grupos de letras, etc. en esa página.
Sólo se grafican aquellas páginas que están presentes en el texto de entrada. Los puntos están codificados mediante colores de acuerdo a la división del texto dentro de secciones gráficas, algo más fina que la división tradicional.
Las páginas consecutivas dentro de la misma sección están conectadas por líneas rectas en un camino poligonal. Un quiebre en la línea indica el límite de una sección o bien páginas que se han perdido en el texto fuente.

Texto de entrada
El texto fuente que he usado para elaborar los gráficos de distibución proviene básicamente del archivo interlineal de Gabriel Landini. Se trast de una colección sincronizada de transcripciones informáticas realizadas por muchas personas a lo largo de los últimos 50 años, la mayor parte de ellas recuperadas y editadas por Jim Reeds.
Con mayor precisión, diré que utilicé una versión mayoritaria obtenida de la versión 1.6e6 del modelo interlineal. Este último es el resultado de convertir el archivo de Landini a EVA y de aumentarlo con mucho material más reciente, incluyendo la transcripción completa de Takeshi Takahashi.

Diagramas basados en frecuencias de palabras

Diagramas basados en frecuencias de clases de palabras

Diagramas basados en frecuencias de elementos

Diagramas basados en frecuencias de clases de elementos

Material adicional (en inglés):

Base matemática de los gráficos

Análisis y discusión de los resultados

0 Comments:

Publicar un comentario

Links to this post:

Crear un vínculo

<< Home