Os 3 pilares da observabilidade: logs, métricas e traces unificados
Compreendendo os sinais de telemetria para melhor tomada de decisão, melhor desempenho e experiências aprimoradas do cliente
.jpg)
Os sinais de telemetria evoluíram significativamente ao longo dos anos — se você piscasse, poderia ter perdido. Na verdade, grande parte do conhecimento comum sobre observabilidade precisa ser atualizado. Se a sua solução de observabilidade não considerar o estado atual da telemetria, talvez você precise de uma atualização. O monitoramento e a observabilidade em sistemas de software se transformaram em diversas fases, juntamente com avanços tecnológicos, sistemas mais complexos e novas abordagens de monitoramento.
Como sempre, os dados estão no centro da história. A evolução da telemetria acompanha de perto a evolução da computação. À medida que a necessidade de dados se expande de um indicador de desempenho mecânico para um indicador (ou vários indicadores) de desempenho empresarial, o mesmo ocorre com os sinais de telemetria. A computação evoluiu para ambientes de nuvem distribuídos, portanto, as práticas de monitoramento devem evoluir para atender à complexidade dessas arquiteturas e ambientes digitais em expansão.
Entra em cena: observabilidade — a capacidade não apenas de observar seu ambiente, mas também de compreendê-lo .
Quais são os 3 pilares da observabilidade?
Três sinais de telemetria são os pilares fundamentais da observabilidade: métricas, logs e rastreamentos. Mas, para a observabilidade moderna, estes podem não ser suficientes. Por isso, propomos um novo quarto pilar: a criação de perfis.
Métricas, rastreamentos, logs e perfis são as engrenagens que permitem que você faça a observabilidade corretamente — para monitorar o desempenho e a produtividade. Por sua vez, isso produz insights acionáveis em prol da lucratividade. Eles são fundamentais por um motivo. Não os entenda corretamente, e você estará perdido. Vamos lá!
O que são métricas? (Ou, o que está acontecendo?)
Métricas são dados numéricos brutos coletados de várias fontes, como hardware, software de aplicativo e sites, medindo valores conhecidos. Eles fornecem informações sobre uso de recursos, desempenho e comportamento do usuário. As métricas são os sinais telemétricos originais do monitoramento e podem ser categorizadas em vários tipos:
Métricas do host: CPU, memória e uso de disco
Métricas do aplicativo: Tempos de resposta, taxas de erro e taxas de solicitação
Métricas de desempenho de rede: Taxa de Transferência, Tempo de Funcionamento, Latência, Disponibilidade e muito mais
Métricas do pool de servidores: Métricas de redimensionamento, número de instâncias em execução e número total de instâncias
Métricas de dependências externas: status do serviço, velocidade de resposta, disponibilidade e taxas de erro
Essas métricas são necessárias para definir limites de alertas, avisos e condições de erro. Elas permitem que as equipes monitorem o desempenho geral do sistema e da rede e identifiquem problemas quando eles surgem. Dessa forma, as métricas informam uma postura reativa no monitoramento.
O que são logs? (Por que isso está acontecendo?)
Os logs são dados estruturados e não estruturados da sua infraestrutura, aplicativos, redes e sistemas, compostos de entradas com registro de data e hora relacionadas a eventos específicos. Diferentes tipos de dispositivos e sistemas emitem logs:
Dispositivos de rede
Sistemas operacionais
Aplicações
Dispositivos de IoT
Aplicativos de terceiros
Cada um desses dispositivos gera seu próprio tipo de log, seja um log do sistema, que inclui eventos, como tentativas de conexão, erros e alterações de configuração, ou um log de aplicativo que registra tudo, desde alterações de software até operações CRUD, autenticação de aplicativos e muito mais. Armazenar logs é complicado devido ao número de fontes de logs (considere quantos dos dispositivos, aplicativos e sistemas listados acima sua organização executa), formatos e registros de data e hora inconsistentes e, com o aumento de solicitações, uso e tráfego, volumes gigantescos de dados de logs.
Os logs evoluíram de um uso principal para solucionar problemas para agora servir a diversas funções, como registrar as ações dos usuários, otimizar o desempenho do sistema e da rede e fornecer dados úteis para investigações de monitoramento de segurança. Ao depurar problemas e eventos, os profissionais de TI consultam os logs para identificá-los e corrigi-los. Embora os logs em si sejam flexíveis e repletos de informações — a maioria delas desnecessárias, gerando muito ruído —, os armazenamentos de dados de log são isolados e não inerentemente correlacionados.
O que são rastreamentos? (Onde está acontecendo?)
Os rastreamentos são o primeiro sinal para mostrar o aplicativo da perspectiva do usuário, registrando as ações que o usuário executa ao usar um aplicativo ou serviço. O rastreamento distribuído é uma forma de monitoramento das solicitações à medida que elas percorrem a arquitetura distribuída do front para o back-end e depois para o front novamente. Dessa forma, os rastreamentos são necessários para aplicativos distribuídos e nativos da nuvem que dependem de tecnologias complexas, como o Kubernetes.
Ao reunir dados isolados, os rastreamentos ajudam a descobrir gargalos e a depurar e monitorar aplicativos que utilizam múltiplos aplicativos, como discos, redes e exclusões mútuas (mutex). Os rastreamentos também estabelecem a base para que o monitoramento adote uma postura proativa. Por exemplo, equipes de SREs, ITOps e DevOps podem analisar os dados de rastreamento para descobrir as métricas ou logs mais úteis relacionados a qualquer problema específico e mitigá-lo no futuro.
Métricas, logs e rastreamentos fornecem um conjunto diferente de dados que podem responder às perguntas do usuário sobre seu sistema e/ou aplicativo. No entanto, sem correlacionar os dados, os usuários enfrentam uma variedade de pontos cegos. Mais uma informação pode ajudar a preencher essa lacuna. Entre no próximo passo na evolução dos sinais de telemetria: criação de perfil.
O que são perfis?
Perfis são coleções de rastreamentos de pilha aos quais um problema de desempenho de código está associado, representando o número de vezes que esse rastreamento de pilha foi encontrado. Eles oferecem um nível mais profundo de percepção do que outros sinais, permitindo a identificação de problemas obscuros relacionados a estruturas de dados, alocação de memória e visibilidade de código nos níveis do kernel e do espaço do usuário. A ação de coletar e analisar perfis é chamada de criação de perfil.
A criação de perfil proporciona uma amplitude e profundidade de visibilidade sem precedentes, desbloqueando a capacidade de descobrir o desconhecido dentro do seu sistema. Ao fazer isso, é a peça final da visibilidade abrangente de todo o sistema. É por isso que é o nosso quarto pilar da observabilidade.
Saiba mais sobre criação de perfil em Elastic que contribui com seu agente Universal Profiling para o OpenTelemetry.
Conexão entre observabilidade e sinais de telemetria
Os sinais de telemetria são a base da observabilidade. A observabilidade é alcançada pela coleta, análise e visualização de sinais de telemetria para entender o estado interno de um sistema.
Fase 1: Monitoramento e observabilidade básicos
Antes da nuvem, o monitoramento era manual, local e limitado. À medida que os computadores deixaram de ser uma esfera empresarial especializada — sim, os computadores eram máquinas de escritório de nicho há apenas 50 anos — para residências e escritórios em todos os lugares, o monitoramento também evoluiu como uma prática crucial de TI e o primeiro passo rumo à observabilidade.
Para atender ao aumento da circulação de dados intraservidor e intranet, engenheiros de TI desenvolveram ferramentas de monitoramento que automatizam a detecção. Com o advento das ferramentas de monitoramento de código aberto, o monitoramento básico de rede e desktops migrou de local para web. Atualmente, os sinais de telemetria são mais do que apenas monitorar operações e tráfego local — são métricas de negócios necessárias, e é assim que você deve pensar em métricas, logs e rastreamentos hoje em dia. As pessoas conseguem fazer compras online sem problemas? Qual a velocidade da conexão? Houve alguma violação de dados? As respostas a essas perguntas estão diretamente relacionadas à lucratividade por meio da experiência e satisfação do cliente.
E como os sites agora recebem dados dos clientes, o monitoramento de segurança é um componente cada vez mais importante de qualquer solução de monitoramento.
Fase 2: monitoramento e observabilidade de aplicativos
Em busca de maior escalabilidade, os desenvolvedores estão migrando de aplicativos monolíticos para arquiteturas orientadas a serviços e para microsserviços e arquiteturas sem servidor.
A transição de componentes fortemente acoplados para componentes modulares, ao mesmo tempo em que melhora a flexibilidade das aplicações para que os desenvolvedores possam escalar rapidamente, significa um aumento significativo nos sinais de observabilidade necessários para o monitoramento. A necessidade de monitorar não apenas a infraestrutura, mas também a própria aplicação, adiciona tempos de resposta, throughput e taxas de erro à lista de sinais de telemetria necessários para um monitoramento eficaz. O monitoramento de performance de aplicações (APM) surgiu como uma nova prática necessária e um conjunto de ferramentas que se tornarão cruciais para a observabilidade.
Fase 3: Monitoramento na nuvem e observabilidade
A transição para tecnologias nativas da nuvem adiciona complexidade às práticas de monitoramento da mesma forma que a evolução dos paradigmas de desenvolvimento de aplicativos fez — o volume e a variedade de sinais de telemetria continuam crescendo.
Em arquiteturas distribuídas, novos sinais de telemetria são necessários para garantir que as empresas atendam às expectativas dos clientes por experiências online rápidas, contínuas e seguras. Aqui, encontramos os três grandes: métricas, logs e rastreamentos. Esses sinais capturam a atividade subjacente de um sistema operacional e de seus aplicativos e, juntos, permitem que as empresas alcancem a observabilidade moderna.
Fase 4: A evolução dos sinais de telemetria para observabilidade
Microsserviços, sem servidor, nativos da nuvem. Em um mundo movido por dados, entender os dados que os impulsionam é crucial. Desde o cumprimento de metas de lucratividade até metas de produtividade, métricas, logs e rastreamentos são os elos de uma cadeia de operações — eles contêm os dados que sua empresa precisa para cumprir seus SLAs.
Embora métricas, logs, rastreamentos e, agora, perfis desempenhem papéis cruciais nas práticas de monitoramento, a revisão manual desses dados para depuração é, se não impossível, ineficaz. E embora a automação alivie um pouco a pressão, ela gera uma quantidade significativa de ruído de alerta. A variedade de tipos e fontes de dados também torna muito mais difícil gerenciar o fluxo de informações e correlacioná-las para obter insights práticos.
Então, voltamos aos dados (embora nunca os tenhamos deixado) contando a história. Com as equipes em um estado constante de "tentar recuperar o atraso", o monitoramento deve evoluir para atender às demandas de um fluxo extraordinário de dados e à necessidade de informações inextricavelmente ligadas ao desempenho dos negócios. A solução? Uma plataforma unificada de dados de telemetria.
Observabilidade moderna
Observabilidade moderna é a prática de observar o comportamento geral de um sistema distribuído para entender seu estado interno. Uma solução de observabilidade moderna e eficaz reúne métricas, logs e rastreamentos em uma plataforma de telemetria unificada, permitindo que os profissionais de TI obtenham uma visão holística de seu ambiente de tecnologia e gerem insights acionáveis que impactam a resiliência e a produtividade do sistema.
Com recursos pesados em dados e informações, uma plataforma unificada de dados de telemetria requer o armazenamento do máximo de dados possível para extrair insights e análises quando necessário ou desejado. Como resultado, uma solução de observabilidade moderna e eficaz incentiva investigações proativas e reativas. Correlacionar dados — métricas, logs, rastreamentos e criação de perfis — permite que as equipes abordem o que é conhecido e descubram o que é desconhecido. Em outras palavras, uma solução de observabilidade moderna bem-sucedida posiciona as equipes para responder rapidamente ao "porquê".
Então, como você alcança a observabilidade moderna? Considere os padrões abertos e o OpenTelemetry para organizar os dados e analisá-los. O OpenTelemetry ajuda os SREs a gerar dados de observabilidade em formatos de dados consistentes (padrões abertos) para facilitar a análise e o armazenamento, minimizando a incompatibilidade entre os tipos de dados dos fornecedores. A maioria dos analistas do setor acredita que o OpenTelemetry se tornará o padrão de fato para dados de observabilidade nos próximos cinco anos. A coleta unificada de dados com padrões de dados consistentes em todos os seus sinais de telemetria significa que você estará protegendo sua observabilidade para o futuro. Em termos mais amplos, você também precisará:
Criar uma linha de base: estabeleça consistência em seus formatos e dados para todos os seus dados de telemetria.
Filtrar dados: Abstraia as inconsistências do fornecedor para os usuários finais.
Consolidar suas ferramentas: garanta que você tenha uma estratégia abrangente de observabilidade.
Os dados de telemetria vêm em muitas formas — aplicativos nativos da nuvem produzem uma variedade deles, enquanto um ambiente sem servidor ou máquina virtual produzirá outro tipo. Além disso, esses dados são produzidos em alta velocidade. Portanto, alcançar a observabilidade significa unificar os dados. Isso garante insights relevantes, precisos e rápidos.
O futuro dos sinais de telemetria tem tudo a ver com previsibilidade
É previsível: conforme o cenário tecnológico evolui, também evoluirão os sinais de telemetria necessários para garantir que os sistemas estejam operando de forma otimizada e que os recursos sejam gastos de forma eficiente. Hoje, os sinais de telemetria são conectados a sistemas sofisticados que aproveitam IA/ML para obter insights preditivos e respostas automatizadas. Essa tendência veio para ficar.
Ambientes amplos e distribuídos significam que o monitoramento se tornou difícil, ou seja, ineficaz. Como resultado, o monitoramento deve expandir seu alcance para o reino da observabilidade. Para alcançar a observabilidade, as organizações estão consolidando ferramentas de monitoramento em uma plataforma unificada para aliviar parte da tensão e obter uma visão holística do desempenho do sistema. Métricas básicas de desempenho continuam sendo essenciais para solução de problemas e otimização, enquanto uma abordagem iterativa ajuda a melhorar a resiliência do aplicativo. E ao unir dados isolados, as organizações podem mudar do monitoramento reativo para o proativo, contando com dados de telemetria históricos e em tempo real.
Com a ascensão da IA generativa, as empresas estão sentindo a pressão para proteger seus sistemas mais do que nunca. Portanto, integrar sinais de segurança em frameworks de observabilidade está se tornando mais importante, com foco na detecção e resposta a ameaças em tempo real. E, à medida que as tecnologias de IA generativa evoluem, é provável que vejamos sistemas autorreparáveis impulsionados por recursos avançados de remediação automatizada.
Mas antes que qualquer um desses próximos níveis seja desbloqueado, as organizações precisam estabelecer as bases,construindo bases de dados sólidas com padrões abertos — afinal, a única constante é a mudança. Quem quer aprisionamento de fornecedores?
O lançamento e o tempo de amadurecimento de todos os recursos ou funcionalidades descritos neste artigo permanecem a exclusivo critério da Elastic. Os recursos ou funcionalidades não disponíveis no momento poderão não ser entregues ou não chegarem no prazo previsto.