dmesg | grep -i err
Irá verificar erros recentes, problemas de RAM, aplicativos gerando qualquer log de erro significativo pro sistema operacional
tail -f -n XXXXX /var/log/messages
Similar ao anterior. XXX é o numero de linhas para trás. Sempre que o servidor travar, procure as ultimas entradas neste arquivo antes do travamento.
hdparm -Tt /dev/sda (sda, sdb, md0… seja qual for seu disco)
Te dá um relatório de leitura e escrita pro seu disco.
Os valores mínimos aceitáveis são:
Timing cached reads superior a 700
Timing buffered disk reads superior a 25
Se estiver inferior, é grande chance de problema no disco.
Faz um “top” e acompanha o parametro “wa” ou “iowait”.
Este parametro é o quanto seu sistema operacional espera por leitura/escrita do disco. Se durante 5 minutos esse parametro se mantiver muito alto (a cima de uns 60-70%), pode indicar sobrecarga do servidor e/ou problema no disco.
Servidor travou. Será que é Firewall?
Não é dificil acontecer. As vezes o firewall pode estar em um nível de segurança muito alto (acontece muito com o CSF), e o servidor barra todo o tráfego sainte. Tente desativar o Firewall por alguns dias. Não é nada bom ficar sem firewall, mas ir por eliminação nunca faz mal. O APF é uma boa alternativa de firewall pra Linux.
Se usar o CSF, nunca esqueça de sempre fazer update nele.
Alugue um KVM remoto
Outra dica nossa, seria pedir a instalação de um KVM remoto. Desta forma você consegue verificar de forma segura a temperatura do processador, gabinete e outros parametros. Quando o servidor travar, você terá acesso total a máquina e poderá investigar uma possível mensagem de erro no sistema (se houver).
É basicamente isso.. Existem muitas variáveis. Principalmente quando muitos clientes rodam aplicações que desconhecemos.
fonte: http://littleoak.wordpress.com/2009/08/14/fazendo-analise-de-disco-e-analise-basica-de-um-servidor/