Metadatos, datos estructurados, Schema.org y Google

Google tiene mucho poder en cuanto a lo que hacen los webmasters, en parte debido a que controla la mayor parte del mercado de las búsquedas, que a su vez alimentan a una gran cantidad de sitios que no son conocidos por sí mismos.

Desde el inicio de los buscadores, saber como interpretar la información fue algo clave, todo empezó interpretando los enlaces como “votos”, lo que dio origen al PageRank. Después se sumaron los metadatos:  descripción y palabras claves, éstas ultimas perdieron mucha relevancia en los últimos años. Además, cobraron mas importancia las palabras claves pero en el contenido, no confundir con la de los metadatos. Y por ultimo, llegamos al presente, donde los datos estructurados y/o enriquecidos son los protagonistas.

Schema.org, haciendo el trabajo sucio de los buscadores

Schema.org, es un esfuerzo en conjunto por buscadores, y otros sitios, que tienen como objetivo crear una estructura uniforme para poder interpretar los datos mas fácilmente. No es la primera vez que se juntan varias empresas y crean algo en conjunto para asegurar la estandarización, ésto ya se hizo con los Sitemaps. Y si bien hay organizaciones que crean estándares, hola, W3C. Las empresas no las tienen muy en cuenta, desde Internet Explorer, pasando por casi todos los navegadores, incluyendo a la forma que Google decidió interpretar el archivo para bots (robots.txt), pero bueno, mas allá de éstas picardias “anarquistas”, el problema que me parece al que nos estamos enfrentando quienes tenemos sitios web que viven de su contenido y los usuarios que lo visitan, es el siguiente.

¿Y si nos dejan afuera?

La dirección a la que se dirige Google es ser capaz de responder a las preguntas de la gente, dejando de lado el “organizar la información del mundo” con el que empezó la empresa. El problema que puede llegar a traer a los sitios que viven de y para sus usuarios, es que al tener disponible la información, las personas no van a requerir ingresar a los sitios, o sea, el buscador se queda con la torta. Hay que considerar un par de cuestiones: ganancias compartidas e impacto en visitas.

google schema.org

Ohh, no, perdí una visita de un borracho. Era un clic facíl. Pucha.

Por un lado, Google podría ser bueno y crear un esquema similar al de YouTube, y pagarle una parte al webmaster por usar su contenido en los resultados (Knowledge Graph o rich snippets). No creo que suceda, pero…la esperanza es lo ultimo que se pierde (después de haber perdido todas las visitas).

El impacto en las visitas, aparecer primero y ocupar una gran porción de la pantalla seguramente tenga buenas consecuencias para el sitio que provea el contenido, siempre y cuando el usuario NO quede satisfecho con la información y no ingrese al sitio. Y ésto es algo delicado, si todo nuestro contenido es provisto por Google la gente no va a entrar al sitio. Éste podría ser el nacimiento de un bloqueo a Google, y el fin del buscador, y la aparición de otra tecnología, por supuesto. Tal vez Google Now ya haya recolectado toda la información necesaria y pueda contestar sin depender de otros sitios. Tal vez en vez de molestarnos por usar Schema para que el buscador comprenda nuestro contenido, terminemos usando técnicas para ocultarlo.

¿Y el usuario?

El usuario contento, el contenido llega a ellos mas rápido. Pero hay un problema, si nadie gana por laido creación de contenido ¿Quién lo va a crear? ¿Estará la inteligencia artificial al altura de las circunstancias cuando esto suceda? Véalo en el próximo post de Ciber Geek, el blog de los delirios místicos de las búsquedas y la conspiranoia. En realidad, el próximo post es también sobre los buscadores (la censura, derecho al olvido, etc), ya parezco Search Engine Watch. Ésto sino hago un postcito sobre WordPress o sobre un mini proyecto para aliviar a WordPress en la ardua tarea de “verificar” enlaces rotos.

 

El costo por establecimiento en la telefonía móvil argentina

Para cualquier persona que haya estado en suelo argentino y haya tenido la dicha de utilizar los servicios que brindan las compañías de telefonía móvil, sabrán que mas que una dicha es una reverenda sancochada. Y no solo el problema del mal servicio, sino que las empresas se abusan con los precios, pero por suerte el gobierno ha comenzado a tomar medidas en el asunto, lanzó una campaña llamada “Usá tu voz” (el sitio ya fue dado de baja, =( ), con el fin de conocer cuales eran las inquietudes de los usuarios para con éstos servicios, y hace unas semanas con los resultados de la campaña se lanzó “Conocé lo que pagás” (resoluciones 29/2014 y 81/2014), gracias a la cual las empresas deben informarle a sus usuarios lo siguiente:

  • Precio del plan o abono contratado
  • Precios del segundos y del establecimiento de llamada (primeros 30 segundos)
  • Precios de los SMS y MMS (mensajes multimedia)
  • Precio del consumo de datos por MB
  • Detalles de excedentes, bonificaciones, promos y otros gastos.

Todo esto es un gran paso en la dirección indicada, siempre y cuando se acompañe por inversiones en infraestructura, pero bueno, ese es otro problema.

El cobro por establecimiento (donde nos cagan, upss, que boquita)

Si bien antes era peor, desde la aparición del cobro por segundo en las llamadas, emergió un nuevo villano, el cobro por establecimiento, que básicamente es un costo fijo que se tiene en cualquier llamada que se realice y sea atendida. No importa la duración, ya que se cobra el bloque de los primeros 30 segundos, aunque la llamada dure menos.

Ejemplo:
-“Ya llegué, no me rompas la paciencia.”
-“Lo hago porque me preocupo por vos”
-“Bueno, gracias. Chau”

Eso son unos 5 segundos. Pero igualmente nos cobran los 30 segundos del costo de establecimiento, así que la próxima vez, sabiendo ésto, pueden ser mas amables con la otra persona, unos 25 segundos mas amables.

Y acá, la prueba del delito (próximamente)

En la resolución 81/2014, se encuentra lo siguiente:

el Precio de los primeros TREINTA (30)
segundos será igual o menor al precio del segundo multiplicado por TREINTA
(30)

Con los datos del compilado de planes de telefonía de “Planes para Todos” pude verificar que planes cumplían con esto a precios actuales. La clave está en la columna “Costo establecimiento mayor a 30 segundos”, en la misma pueden ver si el costo de establecimiento del plan es mayor al costo del segundo multiplicado por 30.

establecimiento 30 segundos vs 30 segundos

*los datos usados fueron los correspondientes a llamadas locales a teléfonos de la misma empresa.

En la tabla se puede ver que hay muchos de los planes que actualmente no cumplen con lo especificado en la resolución, por lo cual van a tener que realizar modificaciones, también vale la pena notar que Personal es la empresa mas “leal” con sus usuarios, ya que prácticamente todos sus planes cumplen con el costo de establecimiento, como ven, los 2 que no cumplen son por 1 centavo. Esperemos que sean para la conveniencia de los usuarios.

Los robots de los buscadores y la seguridad por oscuridad

Robots, bots, spiders, arañas, pueden llamarlos como quieran, pero lo importante es saber que se trata del software que usan los buscadores y otros sitios para recorrer la web e indexar contenido. Por ende, son a quienes les debemos “decir” que es lo que queremos, o no, indexen de nuestro sitio, y para eso existe el archivo robots.txt.

r2d2 bot

R2D2 tiene mas onda que Asimo

Imagen robada sin escrúpulos de Wikipedia. shhh, botones.

¿Qué hace el archivo robots.txt?

El archivo robots.txt debe ser accesible públicamente y estar ubicado en directorio raíz del host, ej: cibergeek.com/robots.txt. Debido a que es su naturaleza publica muchas veces son indexados por Google y publicados en los resultados.

Éste archivo contiene directivas para indicarle a los bots que es lo que pueden, y no pueden, indexar. Y si bien según el W3C en el archivo robots.txt solo sé debe indicar que es lo que NO se deben indexar mediante la directiva “Disallow”, Google admite la directiva “Allow”, que justamente tiene permite indicar que es lo que se puede indexar.

Además de indicar que, también permite indicar el quien, ya que la directiva “User-agent” tiene como finalidad crear diferentes reglas para los diferentes bots.

¿Hay alguna otra forma de hacerlo?

El archivo robots.txt muchas veces tiene problemas con la granularidad, y es por eso que se puede complementar con la etiqueta “meta“, la cual permite definir en cada pagina si ésta puede ser indexada, además de detalles extras, como si los links de la pagina se deben seguir.

<meta name=”robots” content=”noindex, nofollow”>

Como se habrán dado cuenta, la etiqueta “meta” tiene la desventaja de poder estar presente solo en paginas HTML, y no en recursos como archivos PDF, SQL, etc, y aquí entran en juego los encabezados HTTP (HTTP Headers), los cuales permiten mediante el agregado del elemento “X-Robots-Tag”, incluir en la respuesta del servidor la misma información que se puede especificar en la etiqueta de HTML.

Pueden leer un poco sobre el uso de las etiquetas en la web de NoArchive.

La seguridad por oscuridad y el archivo robots.txt son incompatibles

Y por fin llegamos a lo que quería remarcar, tal vez la introducción fue un poco larga, pero bueno, quería añadir un poco de contexto. El concepto de seguridad por oscuridad se basa en una decisión de diseño que lleva a pensar que la información, si bien es vulnerable, el desconocimiento de la ubicación de la misma le da su seguridad.

Y es cuando el webmaster (que palabra vieja), quiere asegurarse de que los buscadores no indexen la misma cuando la terminan haciendo vulnerable, ya que el archivo robots.txt termina indicando como acceder a eso que muchas veces no se quiere hacer publico, aunque también sirve para evitar que los buscadores indexen paginas que no tienen ningún contenido o las cuales consumen muchos recursos como para ser servidas a un bot.

Por todo esto es que si quieren que algún archivo o servicio que no sea accesible al publico, lo que no deben hacer es incluirlo en el robots.txt. Sino que deben utilizar otras estrategias, como agregar el elemento X-Robots-Tags a los headers, o mejor aún, si se trata de información sensible, no enlazarla desde ningún lado, además de setear correctamente los Headers HTTP, si bien deberían situarla detrás de algún tipo de autenticación, al menos. No vaya a ser que mediante una búsqueda terminen quedando expuestos esos archivos que se esforzaron en ocultar, un Streisand Effect en potencia.

Conclusión (TL;DR)

Si querés ocultar algo y evitar que lo indexen, no lo agregues en el archivo robots.txt. Usá las demás alternativas.

El Internet en Latinoamérica según Netflix

En las ultimas semanas deben haber escuchado hablar del tema de “Net Neutrality“, que traducido sería algo así “Neutralidad de la Red”, y lo que propone es que los datos que circulan por la red sean tratados con la misma prioridad, sin importar a que empresa pertenezcan. Si no lo recuerdan, Netflix era quien había tenido problemas con este tema, ya que al pasar sus datos por las redes de algunos ISP estos se veían afectados por el “Bandwidth throttling”, que básicamente termina limitando la velocidad de los datos a través de la Red.

netflix net neutrality

Después de todos los problemas que tuvo Netflix, decidieron, hace bastante, comenzar a publicar estadísticas sobre los ISP, como para ejercer presión y mostrarle a sus usuarios como variaba el servicios en los distintos proveedores, y estos mismos datos, están disponibles desde enero también para algunos ISP de América Latina. Seguir leyendo »

Protegiendo tus directorios en Apache, ideal para WordPress

Empecemos con un viejo y conocido refrán: “En casa de herrero, cuchillo de palo“. Dicho esto, seguimos con el post, y estén atentos, ya que esto los puede salvar de un aprieto, y es super sencillo, tan sencillo que hasta yo podría hacerlo.

Evitar el listado de directorios en Apache

Seguramente estén pensando ¿A mi para que me sirve esto? Y bueno, no hay mejor forma que ejemplificando, por ejemplo, existen plugins en WordPress que almacenan archivos en la carpeta “wp-content/uploads”, muchos de estos son plugins que hacen backups o permiten descargar listados de emails, así que con un poco de Google-fu pueden llegar a encontrar muchas cosas.

http://www.google.com/#q=%22Index+of+%2Fwp-content%2Fuploads%2Fbackupbuddy_backups%22+zip

Pero los backups son aburridos y no se pueden vender, mejor vamos por un listado de mails.

https://www.google.com/search?q=”Index%20of%20%2Fwp-content%2Fuploads%2Fwp-mailinglist”%20csv

E incluso hay cosas mas interesantes, por ejemplo, el otro día encontré un sitio que vende un plugin para ayudar con el marketing de WordPress a 65 dolares y lo tiene disponible para descargar gratis en la carpeta “uploads”. Les avisé hace mas de una semana y ni siquiera intentaron bajarlo, o al menos cambiar la configuración. Pero bueno, ahora vamos a lo importante, como evitarlo.

Hay 2 formas de evitarlo (en Apache):

  1. Una forma de hacerlo, mas “artesanal”, es poniendo un archivo con el nombre “index.html” (sin comillas) en el directorio en el que quiere evitar el listado. El archivo puede estar vacío.
  2. La forma que recomendaría un sysadmin es utilizando el archivo “.htaccess” y agregando la siguiente linea:

    Options -Indexes
     

    Esto deshabilita el listado en el directorio en donde se encuentra el  archivo “.htaccess” y en todos los subdirectorios que se encuentren por debajo. 

listado directorio apache

Otra forma de hacerlo es con la directiva “IndexIgnore, por ejemplo, para que no se listen los archivos PHP se usa así “IndexIgnore *.php“, si quieren bloquear todo solo escriben el asterisco (wildcard).

Si tienen acceso al archivos de configuración de Apache esto también se puede hacer desde ahí, pero no es la situación mas habitual.