Projectos de software
Meios de obtenção de Confiança no funcionamento: Tolerância a falhas.
Titulo: “Tese Aluno do Minho”
Autor: Francisco Carlos Afonso
Um erro é uma parte do estado do sistema que pode causar uma falha subsequente. Uma falha é a causa de um erro.
Falhas podem ser classificadas de acordo com muitos critérios. Em relação ao domínio, há falhas de hardware ou software. Falhas de concepção ocorrer muito mais frequentemente no software do que em hardware por causa da diferença de complexidade destes dois domínios. Esta diferença é explicada pelo facto de que as máquinas de hardware têm geralmente um menor número de estados internos do que os programas de software.
A falha é activada quando se produz um erro, caso contrário, está dormente. Uma falha dormente pode ser activada (gera um erro) depois de uma entrada do sistema ou processo computacional. A falha de um componente representa uma falha do sistema, e pode ainda gerar um erro de sistema. Os erros podem propagar dentro de um componente ou sistema. Um erro que não tenha sido detectado um erro de latente. Uma falha no sistema ocorre quando o erro se propaga para o interface do sistema. Em resumo, a culpa é um defeito, um erro é um estado corrompido, e uma falha é o evento que queremos evitar.
A tolerância a falhas é implementado por meio de detecção de erros e recuperação do sistema. A detecção de erros visa detectar erros no sistema. Vários métodos podem ser aplicados para detectar erros, tais como cheques, cheques de replicação de tempo, e cheques de razoabilidade estruturais. Recuperação do sistema deve aplicar o tratamento de erros para eliminar o erro do estado do sistema e, além disso, poderão aplicar-se tratamento de falhas para diagnóstico da falha e impede de ser activado novamente.
Técnicas de tolerância a Falhas em Software:
Artigo: “Agile methods for open source safety-critical software”
Autores: Kevin Gary, Andinet Enquobahrie, Luis Ibanez, Patrick Cheng, Ziv Yaniv,