martes, 29 de mayo de 2007

Cómo funciona Google

Analisis y Caracteristicas de Google

Google fue fundado en septiembre de 1998 por dos estudiantes de doctorado de Stanford, su objetivo era conseguir información relevante a partir de una importante cantidad de datos. Crearon un algoritmo para la búsqueda de datos (PageRank). Esta tecnología se convertiria mas tarde en el corazón que haria funcionar a Google.


En Enero de 1996 iniciaron su colaboración en un buscador llamado BackRub sobre el cual mas adelante se construiría Google.


AOL/Netscape escogió a Google como su servicio de buscador, llegando a superar los 3 millones de búsquedas al día. El 21 de septiembre de 1999 desapareció definitivamente de Google.com la etiqueta que lo identificaba como una versión beta. Desde entonces Google continúa creciendo y mejorando su tecnología de búsqueda.

Al ser Google una empresa privada su poder económico proviene de monetizar la información por medio de Adsense. Este permite poner en un sitio web anuncios poco agresivos que corresponden a la pregunta formulada, permitiendo a cualquier webmaster recibir anuncios de la red de clientes de Google relacionados con su contenido.

Características de su Base de Datos

Actualmente esta considerada la 4º Base de datos informática mas grande del mundo, con unos 8.000 millones de paginas Web indexadas en su base de datos, siendo la del World Data Center for Climate la mas grande de la actualidad. Según una noticia publicada por el diario 20minutos (ver bibliografia)

En comparación con Altavista, Hotbot o MSN, la base de datos de Google es casi 2,5 veces mayor, esto es debido a que Google esta continuamente incluyendo contenido mediante los robots que rastrean la Web de forma periódica, renovando y ordenando el índice de Google. El spider que más tiempo lleva rastreando la red es Googlebot, encargado de recoger los links que después aparecerán en Google. Además cuenta con otros robots como Freshbot que escanea los principales portales de noticias.

El buscador Google abrió su base de datos a otros sitios para que puedan crear sus propios buscadores especializados y configurarlos conforme a sus necesidades específicas. Este servicio gratuito es un intento más de la firma para ampliar su influencia publicitaria en la red.

A parte de la base de datos Web, también incorpora otras bases de datos de servicios como son:

Google Groups permite crear listas de correo, interactuar en ellas y leer los mensajes de Usenet.
Google Directory nos proporciona un método útil que permite acotar la búsqueda basándose en un tema determinado.
Google Print o Google Book Search es un buscador de libros. Busca en libros (títulos y contenido) que el propio Google ha digitalizado e incluido a su base de datos.
Google Image Search es el buscador de imágenes de Google, contiene más de mil millones de imágenes de todos los tipos: fotografías, dibujos, pinturas y más.
Google News es un portal de noticias agregadas por ordenadores de Google. Todo el proceso es automático.
Google Catalogs busca en catálogos.
Froogle es un buscador de productos. Utilizado para buscar el precio más barato de un producto y la comparativa de estos en diferentes tiendas online.
Google Schoolar busca información en documentación de tipo académico/científico.

Principales características

Google es el motor de búsqueda más completo y con mas peso como proveedor de búsquedas, esta afirmación se sustenta en la clara preferencia de usuarios del mundo entero quienes pasan por Google al menos una vez al día, llegando a dominar la cuota del mercado mundial en torno al 60% y un 99% en el mercado español.

Una función clave de Google permite abrir los documentos PDF encontrados en HTML, cuando no encuentra una página o encuentra una versión distinta a la esperada deja explorar su memoria usando la función de 'caché', también permite corregir la ortografía de las búsquedas gracias a la función Google Suggest (¿quiso usted decir...?) y en funciones de búsqueda avanzada permite explorar qué sitios tienen enlaces hacia otro determinado, o en cuales aparece mencionado, una herramienta de gran valor para los administradores de sitios web.

Características de búsqueda

Google sólo muestra aquellas páginas que incluyen todos los términos de la búsqueda. No es necesario incluir "y" entre sus términos. Para acotar la búsqueda un poco más, se agregan más términos.

Google ignora las palabras y caracteres comunes, conocidos como términos vacíos. Google automáticamente descarta términos como "http" y".com,", así como ciertos dígitos o letras, porque raramente estos términos ayudan a acotar la búsqueda. Tampoco distingue los acentos, diéresis ni la letra eñe. No distingue entre mayúsculas y minúsculas. Todas las letras, independientemente de como estén escritas, se consideran minúsculas. Por ejemplo, buscar: "google", "GOOGLE" o "GoOgLe" generará los mismos resultados.

Para proporcionar resultados más exactos, Google solo busca palabras completas, es decir no utiliza el truncado automático, únicamente devuelve los términos que ingresamos en la caja de búsqueda. Por ejemplo buscando "esta" no devolverá búsquedas que contengan "estadística" o "estadio". Google busca palabras, no frases con las palabras en el orden que las hemos escrito en la caja de búsqueda. El orden de las palabras importa, no es simétrico, no da el mismo resultado buscar “scripts php” que “php scripts”

Cada resultado de búsqueda Google contiene un fragmento de la página Web que muestran el contexto en el que los términos aparecen en esa página. Google tiene en cuenta el país en el que estás, aún dentro del mismo idioma, no es lo mismo buscar en www.google.es que en www.google.com.mx, aunque se busque siempre en castellano.

No presenta truncado pero si podemos utilizar el asterisco * para sustituir una, dos o mas palabras. Suele combinarse con las comillas (" "), “tienda * deportes” comparar resultados con “tienda deportes”).

Presenta autostemming en las búsquedas. También podemos utilizar los signos (+, ", -) como conectores de frases.

Prácticamente todos los usuarios de internet desconocen muchas de las estrategias de búsqueda que Google proporciona para afinar las búsquedas.

Google hace uso de los operadores booleanos O (OR) Y (AND) NO (NOT) para realizar búsquedas combinadas de varios términos. Esos operadores son una serie de símbolos que Google reconoce y modifican la búsqueda realizada.


Operadores booleanos

· OR (también |): Busca páginas que contengan un término u otro.
pera OR manzana (comparar con pera manzana)

· +: Para incluir palabras que Google por defecto no tiene en cuenta al considerarlas ruido (en español: "de", "el", "la".....). También se usa para que Google distinga acentos, diéresis y la letra ñ, que son elementos que no distingue.

+el presidente (comparar con el presidente)
+maño (comparar con maño)

-: Para excluir páginas que incluyan cierto término.

corte -ingles (comparar con corte).

Búsqueda por campos

Además de los operadores booleanos, existen otra serie de palabras clave que se pueden utilizar para realizar búsqueda por campos. Estas son las más útiles:

filetype: término: Las búsquedas se restringen a páginas cuyos nombres acaben en el término especificado. Sobretodo se utiliza para determinar la extensión de los ficheros requeridos.

Fileytpe: pdf deporte: muestra aquellos resultados para el término deporte con extensión pdf.

site:sitio/dominio : Los resultados se restringen a los contenidos en el sitio o dominio especificado. Muy útil para realizar búsquedas en sitios que no tienen buscadores internos propios.

site:www.elpais.es deporte: muestra los páginas del sitio www.elpais.es donde aparece el término deporte.

link:url : Muestra páginas que apuntan a la definida por dicha url. La cantidad (y calidad) de los enlaces a una página determina su relevancia para los buscadores. Nota: sólo presenta aquellas páginas con pagerank 5 o más.

link:www.elpais.es: presenta las páginas (con Page Rank igual o mayor a 5) que enlazan con la web elpais

cache:url : Se mostrará la versión de la página definida por url que Google tiene en su memoria, es decir, la copia que hizo el robot de Google la última vez que pasó por dicha página.

cache:www.elpais.es: presenta la versión de Galinus que Google guarda en su memoria.

Introduciendo un término (o varios) después de la url, Google mostrará la copia en memoria de la página con el (o los) términos destacados.

info:url : Google presentará información sobre la página web que corresponde con la url.

info:www.elpais.es: muestra información sobre la web www.elpais.es

related:url : Google mostrará páginas similares a la que especifica la url. Aunque es difícil entender que tipo de relación tiene en cuenta Google para mostrar dichas páginas.

related:www.20minutos.es

Búsquedas restringidas

· allinanchor:términos : Google restringe las búsquedas a aquellas páginas apuntadas por enlaces donde el texto contiene los términos buscados.

· inanchor:término : Las búsquedas se restringen a aquellas apuntadas por enlaces donde el texto contiene el término especificado. A diferencia de allinanchor se puede combinar con la búsqueda habitual.

· intext:término : Restringe los resultados a aquellos textos que contienen el término en el texto.

· allinurl:términos : Sólo se presentan los resultados que contienen los términos buscados en la url.

· inurl:término : Los resultados se restringen a aquellos que contienen término en la url.

· allintitle:términos : Restringe los resultados a aquellos que contienen los términos en el título.

· intitle:término : Restringe los resultados a aquellos documentos que contienen término en el título.
- Sólo para Google Grupos

· author:nombre/correo : Busca en los grupos artículos escritos por el nombre o la dirección de correo indicada.

· insubject:término : Busca mensajes (en Google Grupos) cuyos asuntos contengan dicho término.
- Sólo para Google Noticias

· location:país : Al incluirlo en una búsqueda en Google Noticias, sólo se muestran resultados procedentes del país especificado.
- Voy a tener suerte

En la página principal de Google aparece el botón "Voy a tener suerte". Al pulsarlo Google nos dirige a la primera página de la lista de resultados. Es una curiosidad de búsqueda más que una característica importante.

Búsqueda avanzada

En la página de la búsqueda avanzada, podemos refinar las búsquedas:

Por medio de la Interfaz Avanzada podemos limitar los resultados sin tener que recurrir a los operadores booleanos y conectores de frases.

La búsqueda avanzada permite introducir las palabras de búsqueda con diferentes condiciones de exigencia: todas, frase exacta, algunas y sin. La segunda parte tiene cuadros desplegables que aplican nuevas condiciones adicionales que restringen la búsqueda anterior: idioma, formato, fecha, presencia, dominios, derechos de uso y SafeSearch.

Esta segunda parte es opcional, mientras que es obligatorio introducir alguna palabra en los campos de Buscar resultados.

- Buscar resultados.

- "Con todas las palabras".

Indica que busque páginas que contengan todas las palabras que escribamos en la caja de búsqueda. Equivale a Palabra1 AND Palabra2 AND Palabra3.

- "Con la frase exacta" indica que busque páginas que contengan la frase exactamente tal y como la hemos escrito en la caja de búsqueda. Equivale al uso de las comillas “ “

- "Con alguna de las palabras" indica que busque páginas que contengan alguna de las palabras que escribamos en la caja de búsqueda. Equivale a Palabra1 OR Palabra2 OR Palabra3.

- "Sin las palabras" indica que las palabras que escribamos en la caja de búsqueda no aparezcan en las páginas de resultados. Equivale al uso del símbolo -

- Condiciones adicionales.

- Idioma. Podemos elegir el idioma de las páginas en las que se producirá la búsqueda. Por ejemplo, si elegimos Inglés, sólo mostrará las páginas de resultados que estén escritas en Inglés.

- Formato de archivo. Con esta función podemos elegir el tipo de archivo que nos interesa. Por ejemplo, que solamente devuelva resultados de archivos (.pdf)

- Fecha. Podemos buscar páginas teniendo en cuenta la fecha. Por ejemplo, mostrar páginas web actualizadas durante los últimos 3 meses.

- Presencia. Mediante esta condición podemos restringir en qué parte de la página web se realizará la búsqueda. Por ejemplo, podríamos buscar términos que estén presentes en el título de la página.

- Dominios. Esta condición nos permite buscar sólo en un dominio o excluirlo de los resultados.

- Derechos de uso. Solo mostrara resultados con contenido que pueda ser copiado o modificado, incluso sin ningún tipo de restricción.

- SafeSearch. Este desplegable permite filtrar el contenido sexual explícito que aparece en la búsqueda.

Limitaciones:

Cuando una búsqueda nos devuelve demasiados resultados podemos limitar el número de resultados de la búsqueda. Google facilita este proceso ya que sólo devuelve páginas Web que contengan todas las palabras de su consulta, lo único que tenemos que hacer es agregar más palabras de consulta a los términos escritos.

También podemos excluir una palabra colocando un signo menos ("-") inmediatamente delante del término que desea evitar.

Además se pueden limitar por los resultados de las páginas que se han modificado en los últimos tres, seis o doce meses, por medio del interfaz de búsqueda avanzada,, seleccionando el ajuste de fecha en el menú desplegable.

Gracias a la Búsqueda avanzada, también podremos buscar exclusivamente páginas que: contengan todos los términos de la búsqueda, contengan la frase exacta de la consulta, contengan al menos uno de los términos de la consulta, no contengan ninguno de los términos de la consulta, estén redactadas en un idioma determinado, se hayan creado en un formato de archivo específico, se hayan actualizado en un período de tiempo determinado, pertenezcan a un dominio o sito Web en particular, no contengan material para adultos.

Presentación de los resultados:

En cuanto a la presentación de los resultados la tecnología de búsqueda Google se basa en los hipertextos, analizando todo el contenido de cada web y la posición de todos los términos en cada página. Dando prioridad a los resultados de acuerdo con la proximidad de los términos de la búsqueda, favoreciendo los resultados en los que los términos de búsqueda están próximos entre sí, sin perder tiempo analizando resultados irrelevantes.

La tecnología conocida como PageRank, asegura que los resultados más importantes se muestren primero. PageRank mide objetivamente la importancia de las páginas web y se calcula que resuelve una ecuación de 500 millones de variables y más de 2.000 millones de términos. Los complejos mecanismos automáticos de búsqueda de Google permiten prescindir de la interferencia humana. Está estructurado de manera que nadie puede comprar un lugar privilegiado en la lista ni alterar los resultados con fines comerciales (En la practica esto no es cierto, hay un amplio mercado de venta de textlinks y algunos casos históricos de manipulación del PR) nadie puede comprar un PageRank más elevado, por ejemplo

Esta medición de importancia utiliza su extensa estructura de vínculos como un indicador del valor de una página individual. Google interpreta un vínculo desde la página A hacia la página B como un voto de la página A por la página B. Pero Google revisa otras cosas aparte del número de votos o de vínculos que una página recibe, puesto que también analiza la página que emite el voto. Los votos emitidos por páginas que son consideradas importantes pesan más que las paginas personales.

Los sitios importantes y de alta calidad reciben un PageRank más alto, que Google recuerda cada vez que realiza una búsqueda. Por supuesto, las páginas importantes no significan nada si no coinciden con su búsqueda. Por eso, Google combina PageRank con técnicas de búsqueda de texto para encontrar páginas que sean importantes y a la vez relevantes para la consulta. Google va más allá de la cantidad de veces que un término aparece en una página y examina todos los aspectos del contenido de la página para determinar si es una buena coincidencia para la consulta.

El algoritmo PageRank asigna a cada página web un valor que resulta de la suma de los valores de las páginas que enlazan a ella ponderada por el número de enlaces salientes de cada una, con peso 1-q = 0'85, y un factor de suavización con peso q = 0'15. Es decir:

PR(p) = q + (1-q) * ( PR(e1)/ES(e1) + PR(e2)/ES(e2) + ... + PR(eN)/ES(eN) )

donde PR(página) es el valor que Google asigna a una página (PageRank), ES(página) es el número de enlaces salientes de cada página, y q es un valor de probabilidad (=0'15)

La forma en que se organiza el ranking se basa en buscar vínculos en las paginas web, la idea principal es que si alguien tiene una pagina por ejemplo sobre flores, que se ha convertido en una autoridad en la materia, probablemente otras paginas contenga vínculos hacia esa pagina porque opinan que es útil, entonces insertan vínculos hacia ella. Teniendo en cuenta todos esos vínculos hacia ella podemos determinar cual es el valor hacia esa pagina, también se tiene en cuenta la procedencia de esos vínculos. Por ejemplo: Newyorktimes.com es más respetable que pepeblog.iespana.net

Para decidir que el new york times es mas importante que pepeblog se realiza mediante mecanismos que intentan valorar que información es supuestamente mas útil, a mas vínculos mas probabilidad que sea mas útil. (no profundizan en el tema debido a la patente)


Google también ordena los resultados de la búsqueda por rango. La tecnología de ranking de Google toma en consideración las veces que ha sido una web pulsada en un contexto de búsqueda. Al igual que ocurre en el caso de los anunciantes, si A; B ;C quieren anunciarse compiten entre ellas sobre cuanto quieren pagar para aparecer los primeros (A paga 1€, B paga 0,95 €, C paga 0,90 €). Aparecerán en este orden A, B , C
Pero si C es el anuncio más popular, mas valorado por el rango, habrá un equilibrio entre dinero y utilidad permitiendo a los anunciantes poder competir entre ellos.

Criterios de selección de los recursos:

Todas las páginas son admitidas por Google aunque se tiende a penalizar, con un bajo PageRank o incluso con la no indexación, a aquellas páginas que contienen multitud de enlaces (conocidas como Farmlinks). Actualmente Google se esta planteando penalizar el intercambio de enlaces entre weblogs para poner fin a la publicidad basura.

Debido al sistema democrático del buscador, el resto de los recursos son aceptados ya que Google no juzga que información es útil para el consumidor, es el propio usuario quien lo decide pulsando sobre las respuestas obtenidas.

En China el acceso a webs contrarias al régimen comunista está censurado y así sitios como Voanews son inaccesibles para los internautas chinos. Las webs censuradas por el gobierno chino no aparecen en Google News para los internautas de ese país.

Ventajas:

Desde el momento que realizamos la pregunta hasta que recibimos la respuesta el tiempo de espera es de aproximadamente 0,5 segundos, esto es debido a que no utiliza un buen servidor sino una red completa de PCs de baja gama interconectados. Llegando ha ahorrar un tiempo considerable de espera al usuario.

Inconvenientes:



Los resultados no son clasificados por la fecha de aparición o por calidad de la información, sino

por su popularidad. Esto hace que la cantidad de los resultados sea aceptable pero la calidad a menudo no.
Tampoco se pueden ordenar los resultados, ni descargarlos ni enviarlos vía e-mail.


Los spiders de Google no pueden leer flash, por lo que la información contenida no queda almacenada y pasa desapercibida.
Pese a ser el mejor motor de búsqueda no siempre devuelve la respuesta correcta, los operadores booleanos suelen fallar, no se pueden concatenar operadores. Destaca también la falta de truncado y el autostemming llegando a devolver resultados no deseados.

Se puede falsear el PageRank aumentando el nº de backlinks.



Google no puede cubrir todas las paginas, hay algunos que son invisibles para el (paginas no enlazadas, protegidas, información de las bases de datos, las que los propios webmasters no dejan indexar a los robots mediante un No follow)

Solo guarda 100kb de cada pagina dejando de recuperar términos que se encuentran en otra posición.

Google tiene un límite de búsqueda de 10 palabras.

miércoles, 9 de mayo de 2007

Buscando un proveedor de hosting

En el mercado existen en la actualidad un gran numero de empresas que ofrecen servicio de alojamiento web (Hosting), lo primero que debería hacerse para seleccionar alguna de ellas, es verificar que el servicio lo ofrezca una empresa registrada legalmente ante la cámara de comercio y la administración de impuestos del respectivo país. Existen muchas empresas "fantasma" que venden servicios, recogen dinero, y luego desaparecen sin dejar rastro, haciendo que el cliente pierda el dinero invertido y en muchas oportunidades también la pagina web.

Una vez hecho esto es necesario verificar que el servidor ofrezca las características adecuadas para el alojamiento de la página, esto incluye entre otras cosas confirmar que soporte el lenguaje de programación correspondiente, bases de datos, audio, video, etc.

También es importante verificar el nivel de transferencia ofrecido, esto es lo que permite que la web tenga un determinado número de visitantes cada mes. Las empresas de hosting normalmente ofrecen 10 más nivel de transferencia que el espacio ofrecido para el alojamiento. A propósito de este punto es necesario confirmar si los planes ofrecidos por la empresa se pueden hacer escalables, de esta manera se garantiza que en caso de requerir mayor espacio o transferencia no vamos a tener inconvenientes..

Como puntos adicionales es recomendable verificar el tipo y los medios de soporte técnico ofrecidos, y nunca sobra verificar y hacer pruebas con algunos clientes actuales, con el fin de tener una idea aceptable del funcionamiento del servidor.

El tiempo promedio de activación de un plan de hosting puede estar alrededor de las 24 horas, sin embargo muchas empresas realizan activación inmediata, una vez se ha confirmado el pago. En el caso del dominio, este puede tardarse un poco más, debido al tiempo que toma la propagación de los DNS en Internet, este tiempo máximo es de 48 horas, sin embargo siempre suele ser mucho menor.

Esperamos que este artículo haya sido de utilidad para ustedes