APRENDIZADO DE MÁQUINA E PRESTAÇÃO DE SERVIÇOS DE ARMAZENAMENTO DE DADOS: MÉTRICAS PARA ANÁLISE E VALIDAÇÃO DE ALGORITMOS PREVISORES
Resumo
Utilizando o processo de aprendizado de máquina (machine learning), esta pesquisa teve por objetivo inicial analisar como variáveis relacionadas à quantidade média de dias de funcionamento, à idade média dos dispositivos de armazenamento, às taxas de falhas anualizadas, à capacidade de armazenamento, ao fabricante e ao tipo de dispositivo poderiam caracterizar-se como possíveis determinantes da quantidade de falhas ocorridas nos diversos modelos de Hard Disk Drive (HD) e Solid State Disks (SSD) utilizados em datacenters de provedores de serviços de armazenamento de dados em nuvem. Adicionalmente, procurou-se investigar e identificar um conjunto de métricas voltadas para o processo de análise da eficiência das estimativas realizadas com base neste estudo, assim como, da eficiência de algoritmos de previsão em geral. Inicialmente, implementou-se uma rede neural artificial (RNA) aplicada a um conjunto de dados provenientes de 203.168 HD e 2.200 SSD, agrupados em 31 diferentes modelos de fabricação. Após isso, procedeu-se à análise da qualidade das estimativas realizadas com base em RNA, mediante a utilização de um conjunto de métricas pesquisadas para essa finalidade. Apesar de aparentemente apresentar qualidade analítica promissora nas fases de treinamento e teste, a RNA pesquisada mostrou-se ineficiente do ponto de vista preditivo. Por outro lado, foi possível identificar, propor e testar um conjunto métricas voltadas para a análise e validação da eficiência de algoritmos de previsão baseados em aprendizado de máquina.