¿Cuál fue la verdadera causa de la falla de TI de British Airways en mayo de 2017?

Bueno, recientemente me encontré con esta noticia en la que el accidente del sitio de British Airways causó una indignación masiva con los pasajeros varados en el aeropuerto.

El CEO de British Airways se disculpa porque una “falla importante de TI” lleva a vuelos a tierra en Londres

La interrupción de £ 150 millones de BA fue causada por alguien que encendió y apagó las computadoras demasiado rápido

Bueno, lo siento por el encargado de mantenimiento de DC (Data Center), que entró allí y desconectó accidentalmente la fuente de alimentación de DC. Puedo anticipar, como vengo de la misma comunidad de ingenieros de TI, que habrá múltiples borradores del informe RCA, en el que eventualmente se lo convertirá en chivo expiatorio y tal vez lo despidan.

Si me preguntas, él solo no es responsable de este desastre: interrupción de 15 minutos y pérdida de negocios en millones. Francamente, todos los sitios de TI, más apropiadamente los centros de datos, están de hecho diseñados para enfrentar tales situaciones. Y por esta razón, siempre tienen un DR (sitio de recuperación de desastres). Junto con los sitios de recuperación ante desastres, vienen las soluciones de alta disponibilidad (siempre que el cliente tenga un bolsillo), es decir, soluciones de alta disponibilidad (que garantizan el 100% de disponibilidad de la empresa). Ambos, juntos, HA y DR a menudo son vendidos por proveedores de TI.

Ahora, donde la mayoría del cliente, que compra productos de TI, no comprende, es la importancia de este sitio de DR, o prestar la debida atención a los simulacros de DR. Muchos de los clientes, incluidos los grandes nombres (que no puedo mencionar aquí por razones obvias), consideran que DR es simplemente un requisito de cumplimiento. Algo para marcar en su hoja de cálculo. Muy pocas organizaciones, de las que tengo conocimiento, ejercen con frecuencia ejercicios de recuperación ante desastres y han comparado el rendimiento del sitio de recuperación ante desastres (solución de recuperación ante desastres de un botón, OBDR). Lo que la mayoría de las organizaciones, he encontrado, es planear un simulacro de DR durante el fin de semana. Inicie el sistema en el sitio DR de una manera muy controlada. Si el sistema aparece, el DR se marca como exitoso y el sistema se inicia nuevamente en el sitio principal de DC. Tales ejercicios DR no tienen sentido. No sirve para nada. Los proveedores empresariales lo saben muy bien y siempre recomiendan tener un sitio de recuperación de desastres saludable.

Pero el cliente ignora deliberadamente el consejo del proveedor de TI que cita su presupuesto limitado. Lo sé, muchos clientes dicen que no estamos en la profesión de TI, estamos en la profesión de xyz, por lo que dedicamos recursos a nuestras áreas centrales. Tienen suerte de no haber sufrido el destino de la BA, y si alguna vez lo harían, no debería ser una sorpresa.

Un consejo sería cuidar muy bien su infraestructura de TI. Su infraestructura de TI es la columna vertebral de su organización. Solo tener una columna vertebral no te convierte en una superestrella, pero trata de ser uno sin ella.

Fuente: Google

Sucedió debido a una falla de energía en el edificio donde se encontraba uno de sus servidores de datos.

Aparentemente, el año pasado, trasladaron siete de sus servidores de datos a una ubicación en India, pero no los instalaron correctamente allí. No se realizaron pruebas para verificar si el movimiento y la reinstalación tuvieron algún efecto en el rendimiento.

Big Blunder por BA.

¿Obtendrá el público la razón real y total del fracaso, y todos los pasos / decisiones que lo permitan, NO?

BA hará un análisis de causa raíz, muy poco, si alguno de ese informe interno se hará público. Se analizará el aspecto técnico del problema,

No las decisiones comerciales internas que pueden haberlo causado.

  • Outsourcing de trabajo de TI a India
  • Menos personal experimentado que está diseñando los sistemas, que no tienen un compromiso a largo plazo en el trabajo / proyecto. No trabajan para BA, tienen contratos a corto plazo.
  • Pérdida de conocimiento institucional sobre cómo interactúan entre sí los cientos de sistemas.
  • Reduzca los presupuestos / diseños para hacer que los sistemas estén activos / activos (HOT Failover) para que haya un problema ambiental (energía), los sistemas conmuten por error a un segundo (otro) centro de datos en otro lugar y nadie se dé cuenta.

La causa principal de por qué ocurrió la interrupción fue como usted dijo. Poder.

Pero el problema podría haberse evitado si BA no confiara en los contratistas de TI. Lo ves. Se está convirtiendo en una puerta de entrada importante dentro de la industria de la aviación y ofrece eficiencia y beneficios rentables. Pero cuando una infraestructura no se administra únicamente a las agendas de las aerolíneas. Situaciones catastróficas ocurren como este fin de semana.

La infraestructura de TI dentro de la aviación es bastante complicada ya que hay CARGAS y CARGAS de integración con otras redes de TI, como aeropuertos, clientes y terceros.

Es muy poco probable que un hack haya sido la razón de la falla de TI. Es la gestión general de la infraestructura de TI, lo que significa que no pudieron identificar el problema debido a la cantidad de partes que participan en él.

No lo sé exactamente y BA nunca te lo dirá, pero es seguro decir que BA tiene problemas de gestión a largo plazo y eso no está mejorando. Sospecho que la seguridad está bien, ¡pero el servicio de pasajeros es claramente irrelevante! Hace unos años, no tuvieron servicio de comidas durante semanas, incluso en los negocios o por primera vez, hace aproximadamente una década, BA US entregó una carta a las personas a los clientes que faltaban equipaje diciendo “estamos buscando su equipaje, si nos llama, eso podría retrasar el proceso” Sí, los pasajeros no son la prioridad de BA. Una molestia de verdad!

La respuesta oficial es un “problema de suministro de energía”, con 0 detalles adicionales. La respuesta más probable son los errores en su software que causaron la corrupción de la base de datos. El personal de TI de British Airways probablemente esté luchando ahora (a partir del 27 de mayo de 2017) para revertir y volver a parchear las transacciones.