Seología

Pedid y SEO dará

La posta acerca del contenido duplicado contenido duplicado

contenido duplicadoGente, aflojemos un poco por favor. Ya estamos grandecitos. BASTA DE HABLAR DE CONTENIDO DUPLICADO!! jaja no, hablando en serio, hay muchas creencias erróneas llegado el tema del contenido duplicado y me gustaría aclarar algunas cosas.

Primero arranco con el propósito del duplicate content o su escencia, como deseen llamarlo. Si yo escribo un post hermoso acerca de algo que le interesa a muchos y viene Pedro Plagio y me lo… bueno, plagia; ESO ES CONTENIDO DUPLICADO (me ha pasado y si, es horrible). La cosa es que debe haber una forma de poder certificar quién es el dueño legítimo del contenido ya que puede aparecer un scraper con un creativo script que hace un copy/paste de lo que redactás y se queda con toda tu bien merecida gloria.

Ahora, como ya dijimos, Google NO ES TONTO. Es por esto que cuando llega a levantarse una banderita roja acerca de algo que suene que ya lo leimos es ahí cuando Google se fija varios factores, entre los cuales calculo que la fecha de indexación y la autoridad del sitio serán los predominantes (si uno fue indexado el 2 de abril y el otro el 5 de mayo, es probable que el legítimo sea el del 2 de abril).

Ok, ahora que ya sabemos para que fue creado todo el tema de supervisación de contenido duplicado, vayamos a ver cosas que NO caen bajo esa esfera. Y lamento decir que cada una de estas cosas he escuchado a gente decir ERRÓNEAMENTE que eran duplicate content.

NO es contenido duplicado:

  • Densidad de keywords
  • Títulos que figuran 2 veces en la misma página: puede que no sirva repetirlo, pero Google no te va a penalizar.
  • Excerpts de un post: un párrafo introductorio con un link al contenido entero no es dupe content.
  • Una versión en castellano y una en inglés del mismo sitio o página
  • 2 links distribuidos en una página que apuntan al mismo lugar con el mismo anchor text
  • cualquier otra cosa rara que se te pueda llegar a ocurrir
Perfecto, ahora que aclaramos algunas de las burradas, pasemos a aclarar algunas cosas turbias que SI caen bajo la lupa de Google como contenido duplicado.
Esto SI es contenido duplicado
  • Repetidos plagios a contenido de otros blogs (generalmente gracias a scrape scripts)
  • URLs con Session ID o un numerito que se le agrega por cada usuario que se loguea creando así una copia de cada página a la cual se mete un usuario logueado.
  • y básicamente cualquier página con la GRAN MAYORÍA del contenido completamente idéntico a otra página
Me encanta haber podido aclarar eso. Ojo, no hay que ser un gurú del SEO (qué será eso!?) para saber esto. Simplemente comprendiendo el principio por el cual fue creado este banderín rojo por Google y empleando un poco de sentido común se puede llegar muy lejos en el tema.
Ahora sí, les dejo un consejo turbio, gray hat o como quieran llamarlo. Pero no vayan diciendo que yo fui el que les dijo que hagan esto! Es simplemente un pequeño agujerito en la tecnología de detectamiento de contenido duplicado utilizada por los robots de Google (seguramente deje de funcionar en un tiempo, no me sorprendería).
Qué tenés que hacer si querés copiar un texto entero de 15,000 palabras y no querés levantar G-sospechas? Fácil: traucilo con el traductor de Google al inglés. El texto resultante pasalo a ruso, de ruso a italiano, de italiano a alemán, de alemán a inglés y de vuelta a español. Te va a quedar un texto muy a lo Tarzán pero con las keywords que querés usar. Al ser este texto BASTANTE DISTINTO al original, no deberías presenciar una caída de rankings. Pero OJO QUE YO NO LO HARÍA… sólo digo que se puede. ;)

Posteado en Black Hat | 7 Comentarios »

Cómo conseguir un link de Flickr (PageRank 9)

Logo FlickrEste truquito lo levanté de ExposedSEO. Consiste en conseguir un link de un sitio con PageRank 9. Se trata nada más y nada menos que de Flickr.

El tema es que Flickr tiene nofollows en los links de los comentarios, pero no en las imágenes con links (guiño, guiño). De esta forma se puede colgar un link que apunte a tu sitio. Si se desea que los lectores no se percaten de esto, se puede hacer que la imagen insertada sea un smiley levantado de tu blog. A continuación les dejo el código necesario:

<a href=”http://www.tusitio.com”><img src=”http://www.tuimagen.com/image.gif” alt=”keyword” title=”keyword”></a>

Seguro que alguno se está preguntando si esta técnica es ética o no. La respuesta es “según”. Si bien de por sí es un poco grayhat (lo admito), puede ser utilizada para bien o para mal. Si se linkea a una página de tu sitio en una foto relevante con la landing que elegiste, entonces no debería haber problema. Pero si linkeás desde todas las fotos habidas y por haber en Flickr, entonces se podría decir que estás espameando.

Una última cosa, no olviden que las páginas de fotos con mayor PageRank son las que tienen un link desde la home. El problema es que generalmente estas fotos tienen los comentarios llenos hasta el fondo y si nosotros dejamos uno, aparece recién en la segunda página. Es por esto que conviene ser rápido (eso o tener paciencia hasta que Google le asigne PageRank a la segunda página de comentarios).

Espero que les haya sido útil y no espameen! :)

Posteado en Black Hat | 5 Comentarios »

Gran vulnerabilidad encontrada en Clarin.com

He descubierto que el sitio de Clarin tiene un gran agujero en el buscador de su sitio. Es mi interés escribir acerca de esto para informarles acerca del problema para que lo puedan corregir. No me responsabilizo por las consecuencias que esta información puede causar en manos de personas equivocadas. Dicho eso, paso a explicar el ejemplo.

Al buscar una palabra, se genera una página con el parámetro buscado escrito en la URL. Si reemplazamos esa palabra por una línea de código en caracteres HEX en lugar de ASCII, podemos lograr alterar los resultados de la landing. Si linkeás a esa página desde un sitio, Google te lo puede levantar y considera que Clarin está recomendando tu sitio. De más está decir que los links de ejemplo que mostraré a continuación tienen tags de nofollow. Google ignora estos links y no los indexa.

No probé todavía si se puede inyectar JavaScript, pero no me llamaría la atención. Les dejo los links.

Este ejemplo inyecta un link con el anchor text que se desee y le asigna un heading H1, nombrándolo como la línea de texto más importante de toda la página:

Ver ejemplo 1

Este ejemplo inyecta una imagen a nuestra elección y le asigna el alt text que deseemos:

Ver ejemplo 2

Adjunto unas imágenes por si cuando leen esto está corregido el agujero. Clickearlas para ver en grande.

Ejemplo de inyección de links en Clarin.com

Ejemplo de inyección de imagen con alt text en Clarin.com

Eso es todo. Espero que la buena gente de Clarin.com solucione lo antes posible este agujero. Reitero que no fue mi intención “avivar giles” sino demostrar como ningún sitio es del todo seguro.

Update: Vulnerabilidad reparada por Clarin.com el día 5 de mayo 2008.

Posteado en Black Hat | 18 Comentarios »