Si has leído The Pragmatic Programmer probablemente te acuerdes de dos consejos básicos:

  • Keep your knowledge in Plain Text
  • Always Use Source Code Control

El texto plano nunca se volverá obsoleto. Añadimos un software de control de versiones y estamos en una situación win-win.

Te sentirás como Marty McFly con su DeLorean DMC-12, podrás viajar en el tiempo comprobando como cambiaron tus archivos. Qué líneas fueron modificadas, en qué archivos, qué líneas se añadieron, cuáles se eliminaron… como mucho estarás a un par de comandos de contestar todas esas preguntas.

Cuando le cojas gusto querrás tener bajo control de versiones tus archivos de configuración, tus scripts caseros… incluso se te puede ocurrir tener bajo revisión tu instalación completa de Windows.

Aunque algunas versiones modernas de herramientas de comparación de archivos soportan archivos binarios lo habitual es realizar una comparación línea por línea de los archivos. Por lo tanto cuando comparemos dos versiones de archivos binarios podremos saber si han cambiado o no lo han hecho, pero no podremos saber que es lo que exactamente ha cambiado.

Durante las últimas semanas estoy trabajando con archivos de Microsoft Word 2007, no precisamente por gusto, sino porque era estrictamente necesario trabajar con este formato. Yo hace tiempo que le cogí gusto a eso de poner todo bajo control de versiones.
Desde hace unos cuantos meses, y siempre que puedo, suelo elegir Git como software de control de versiones. Así que uso Git para llevar un control de cambios sobre todos esos documentos de Word 2007.

Como ya hemos comentado el problema con ese tipo de archivos (binarios) es que no podemos hacer una comparación línea a línea entre dos versiones. De modo que cuando ejecutemos git diff obtendremos un mensaje diciéndonos que son archivos binarios.

Cómo podemos solucionar esto y poder ver qué se modificó en cada archivo de Word?
Los archivos de Word 2007 en realidad son archivos ZIP que contienen documentos XML y otros archivos de datos. Podríamos reinventar la rueda otra vez hoy, pero como ya existen herramientas que extraen el texto (plano) de documentos Office Open XML (formato de Word 2007) nos limitaremos a usar alguna de ellas. Una búsqueda rápida para docx to text y tenemos un script en perl que hará el trabajo sucio: extraer el texto de nuestros documentos Word 2007.

A continuación voy a realizar un ejemplo en el que se mostrará lo que sucedería al tratar de comparar dos versiones de un archivo de Word 2007 y como configurar nuestro Git y nuestro repositorio para poder automatizar el proceso de compararlas usando el texto plano que produce el script en perl.

Mi versión actual de Git es la 1.6.3.2.

iMac:~ rochoa$ git --version
git version 1.6.3.2

Creamos un directorio nuevo y nos cambiamos a su ubicación, iniciamos un nuevo repositorio y comprobamos su estado:

iMac:~ rochoa$ mkdir -p ~/git/example && cd ~/git/example
iMac:example rochoa$ git init
Initialized empty Git repository in /Users/rochoa/git/example/.git/
iMac:example rochoa$ git status
# On branch master
#
# Initial commit
#
nothing to commit (create/copy files and use "git add" to track)

Creamos un documento Word en este directorio, ejemplo:

commit_0

Comprobamos el estado del repositorio, añadimos el fichero a nuestro repositorio, hacemos el commit inicial y volvemos a comprobar el estado del repositorio.

iMac:example rochoa$ git status
# On branch master
#
# Initial commit
#
# Untracked files:
#   (use "git add ..." to include in what will be committed)
#
#	document.docx
nothing added to commit but untracked files present (use "git add" to track)
iMac:example rochoa$ git add .
iMac:example rochoa$ git commit -m "initial commit"
[master (root-commit) 0ffe9fe] initial commit
 1 files changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 document.docx
iMac:example rochoa$ git status
# On branch master
nothing to commit (working directory clean)

Modificamos nuestro documento, por ejemplo:

commit_1

Comprobamos el estado del repositorio y hacemos commit. Lo mensajes tendían a ser largos y detallados con el fin de tener toda la información posible en el registro.

iMac:example rochoa$ git status
# On branch master
# Changed but not updated:
#   (use "git add ..." to update what will be committed)
#   (use "git checkout -- ..." to discard changes in working directory)
#
#	modified:   document.docx
#
no changes added to commit (use "git add" and/or "git commit -a")
iMac:example rochoa$ git commit -am "removing info about how easy&fast brandching and merging are, added projects using git as dcvs"
[master 455130a] removing info about how easy&fast brandching and merging are, added projects using git as dcvs
 1 files changed, 0 insertions(+), 0 deletions(-)

Se usaban mensajes largos y detallados porque a la hora de comparar versiones se obtenía el mensaje de aviso de comparación de archivos binarios.

iMac:example rochoa$ git diff HEAD^

diff --git a/document.docx b/document.docx
index b01c1ac..0761a57 100644
Binary files a/document.docx and b/document.docx differ

Por lo que la única opción era hacer uso del log para saber que se había modificado.

iMac:example rochoa$ git log
commit 455130a12ae51f264c2528c1d42f306e41dc382f
Author: Raul Ochoa
Date:   Wed Jun 10 22:27:14 2009 +0200

    removing info about how easy&fast brandching and merging are, added projects using git as dcvs

commit 0ffe9fedb2828678a4612ebdb1625fb4f515f94a
Author: Raul Ochoa
Date:   Wed Jun 10 22:19:42 2009 +0200

    initial commit

Cómo poder comparar el texto de nuestros documentos Word?

Lo primero que necesitamos es tener el script perl en nuestro PATH.

iMac:~ rochoa$ docx2txt.pl 

Usage:	/Users/rochoa/bin/docx2txt.pl  [outfile.txt|-]

	Use '-' as the outfile name to dump the text on STDOUT.
	Output is saved in infile.txt if second argument is omitted.

A continuación crearemos otro ejecutable, por ejemplo docx2plain, que deberá estar también en nuestro PATH y que tendrá el siguiente contenido:

#!/bin/bash
docx2txt.pl $1 -

Básicamente pasará como argumento al script perl un documento Word y redigirá la salida a STDOUT.

Podemos probar su funcionamiento con nuestro documento:

iMac:example rochoa$ docx2plain document.docx
Git

Git is a free & open source, distributed version control system designed to handle everything from small to very large projects with speed and efficiency.
Every Git clone is a full-fledged repository with complete history and full revision tracking capabilities, not dependent on network access or a central server.
Several high-profile software projects now use Git for revision control, most notably the Linux kernel, Perl, GNOME, Samba, X.org Server, Qt, One Laptop per Child (OLPC) core development, VLC, Wine, Ruby on Rails, and the Android mobile platform.

Lo siguiente será modificar nuestro archivo de configuración de git: ~/.gitconfig
En el que añadiremos las siguientes dos líneas:

[diff "docx"]
    textconv = docx2plain

Con esto conseguimos indicarle a git que tiene una opción para convertir determinados objetos de lo repositorios en texto en caso de que se use el mecanismo de diff “docx”.

Ahora es necesario añadir un fichero nuevo a nuestro repositorio: .gitattributes, al que le añadiremos la siguiente línea:

*.docx diff=docx

Con esto conseguimos forzar el uso del mecanismo de diff “docx” cuando se encuentre ficheros que cumplan con el patrón de nombre indicado.

Si todo está correctamente configurado y los scripts funcionan deberíamos poder comparar las diferentes versiones de nuestro documento como si de texto plano se tratase:

iMac:example rochoa$ git diff HEAD^
diff --git a/document.docx b/document.docx
index b01c1ac..0761a57 100644
--- a/document.docx
+++ b/document.docx
@@ -1,4 +1,5 @@
 Git

 Git is a free & open source, distributed version control system designed to handle everything from small to very large projects with speed and efficiency.
-Every Git clone is a full-fledged repository with complete history and full revision tracking capabilities, not dependent on network access or a central server. Branching and merging are fast and easy to do.
+Every Git clone is a full-fledged repository with complete history and full revision tracking capabilities, not dependent on network access or a central server.
+Several high-profile software projects now use Git for revision control, most notably the Linux kernel, Perl, GNOME, Samba, X.org Server, Qt, One Laptop per Child (OLPC) core development, VLC, Wine, Ruby on Rails, and the Android

Lo mejor de todo esto es que no es necesario preocuparse de generar archivos intermedios, Git se encarga de todo (con la inestimable ayuda, en este caso, de nuestro script perl).

En realidad esta técnica es válida para cualquier tipo de documento que permita extraer texto (plano) de su contenido, simplemente tendrías que usar un ejecutable adecuado para cada tipo de archivo binario: PDF, Word <2007 …

PD: Antes de que me preguntéis si conozco la herramienta de control de cambios de Microsoft Word, os diré que sí que la conozco.



About Raúl

Raúl Ochoa, a spaniard working for Tuenti in Madrid, Spain. More about me.

Subscribe to the feed

If you want to receive a notification when I update the website, you only have to add the feed to your reader, or submit your email address and I'll let you know.

Categories