HDD SMART

Таблица расшифровки показаний SMART

Имя атрибута Описание
01 Raw Read Error Rate Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
02 Throughput Performance Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы.
03 Spin-Up Time Время раскрутки пакета дисков из состояния покоя до рабочей скорости.
04 Start/Stop Count Полное число запусков/остановок шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.
05 Reallocated Sectors Count Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую область. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов.
06 Read Channel Margin Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется.
07 Seek Error Rate Частота ошибок при позиционировании блока головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска.
08 Seek Time Performance Средняя производительность операции позиционирования магнитными головками. Если значение атрибута уменьшается, то велика вероятность проблем с механической частью.
09 Power-On Hours (POH) Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure).
10 Spin-Up Retry Count Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью.
11 Recalibration Retries Количество повторов запросов рекалибровки в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью.
12 Device Power Cycle Count Количество полных циклов включения-выключения диска.
13 Soft Read Error Rate Число ошибок при чтении по вине программного обеспечения.
184 End-to-End error Данный атрибут — часть технологии HP SMART IV, это означает, что после передачи через кэш памяти буфера данных паритет данных между хостом и жестким диском не совпадают.
187 Reported UNC Errors Ошибки, которые не могли быть восстановлены, используя методы устранения ошибки аппаратными средствами.
190 Airflow Temperature (WDC) Температура воздуха внутри корпуса жёсткого диска для дисков Western Digital. Для дисков Seagate рассчитывается по формуле (100 — HDA temperature).
191 G-sense error rate Количество ошибок, возникающих в результате ударных нагрузок.
192 Power-off retract count Число циклов выключений или аварийных отказов.
193 Load/Unload Cycle Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение.
194 HDA temperature Здесь хранятся показания встроенного термодатчика.
195 Hardware ECC Recovered Число коррекции ошибок аппаратной частью диска (ошибок чтения, ошибок позиционирования, ошибок передачи по внешнему интерфейсу).
196 Reallocation Event Count Число операций переназначения. В поле «raw value» атрибута хранится общее число попыток переноса информации с переназначенных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
197 Current Pending Sector Count В поле хранится число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения.
198 Uncorrectable Sector Count Число неисправимых ошибок при обращении к сектору. {Возможно, имелось в виду «число некорректируемых секторов», но никак не число самих ошибок!} В случае увеличения числа ошибок велика вероятность критических дефектов поверхности и/или механики накопителя.
199 UltraDMA CRC Error Count Число ошибок, возникающих при передаче данных по внешнему интерфейсу.
200 Write Error Rate /
Multi-Zone Error Rate
Показывает общее количество ошибок, происходящих при записи сектора. Может служить показателем качества поверхности и механики накопителя.
201 Soft read error rate Частота появления «программных» ошибок при чтении данных с диска.
Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
202 Data Address Mark errors Number of Data Address Mark (DAM) errors (or) vendor-specific.
203 Run out cancel Количество ошибок ECC.
204 Soft ECC correction Количество ошибок ECC, скорректированных программным способом.
205 Thermal asperity rate (TAR) Number of thermal asperity errors.
206 Flying height Высота между головкой и поверхностью диска.
207 Spin high current Amount of high current used to spin up the drive.
208 Spin buzz Number of buzz routines to spin up the drive.
209 Offline seek performance Drive’s seek performance during offline operations.
220 Disk Shift Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения. Единица измерения неизвестна.
221 G-Sense Error Rate Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного датчика удара.
222 Loaded Hours Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область.
223 Load/Unload Retry Count Количество новых попыток выгрузок/загрузок блока магнитных головок в/из парковочной области после неудачной попытки.
224 Load Friction Величина силы трения блока магнитных головок при его выгрузке из парковочной области.
226 Load ‘In’-time Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска.
227 Torque Amplification Count Количество попыток скомпенсировать вращающий момент.
228 Power-Off Retract Cycle Количество повторов автоматической парковки блока магнитных головок в результате выключения питания.
230 GMR Head Amplitude Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок).
231 Temperature Температура жёсткого диска.
240 Head flying hours Время позиционирования головки.
250 Read error retry rate Число ошибок во время чтения жёсткого диска.

Barracuda Green ST2000DL003

Seagate_Barracuda_GreenDrive specification
Formatted capacity (4096 bytes/sector)*: 2000GB
Guaranteed sectors: 3,907,029,168
Heads: 6
Disks: 3
Bytes per sector: 4096
Default sectors per track: 63
Default read/write heads: 16
Default cylinders: 16,383
Recording density (max): 1632kb/in
Track density (avg): 274 ktracks/in
Areal density (avg): 422Gb/in2
Spindle speed: 5900 RPM
Internal data transfer rate (max): 1928Mb/s
Sustained data transfer rate OD: 144MB/s
I/O data-transfer rate: 600MB/s
ATA data-transfer modes supported: PIO modes: 0 to 4, Multiword DMA modes: 0 to 2, Ultra DMA modes: 0 to 6
Cache buffer: 64MB
Height (max): 26.1mm / 1.028 in
Width (max): 101.85mm / 4.0 in (± 0.010 in)
Length (max): 147.00mm / 5.78 in
Weight (typical): 635g / 1.39 lb
Average latency: 4.16ms
Power-on to ready (max): <17s
Standby to ready (max): <17s
Track-to-track seek time (typical): <1.0ms read; <1.2ms write
Average seek (typical): <12ms read; <13ms write
Startup current (typical): 12V (peak) 2.1A
Voltage tolerance (including noise): 5V ±5% 12V ±10%
Ambient temperature: 0° to 60°C (operating), –40° to 70°C (nonoperating)
Temperature gradient (max): 20°C per hour (operating), 30°C per hour (nonoperating)
Relative humidity: 5% to 90% (operating), 5% to 95% (nonoperating)
Relative humidity gradient (max) 30% per hour 30% per hour
Wet bulb temperature (max): 37.7°C (operating), 40.0°C (nonoperating)
Altitude, operating: –304.8m to 3,048m (–1000 ft. to 10,000+ ft.)
Altitude, nonoperating (below mean sea level, max): –304.8m to 12,192m (–1000 ft. to 40,000+ ft.)
Operational Shock (max): 80 Gs at 2ms
Non-Operational Shock (max): 300 Gs at 2ms
Vibration, operating: 5Hz–22Hz: 0.25 Gs,
Limited displacement
22Hz–350Hz: 0.50 Gs
350Hz–500Hz: 0.25 Gs
Vibration, nonoperating 5Hz–22Hz: 3.0 Gs
22Hz–350Hz: 3.0 Gs
350Hz–500Hz: 3.0 Gs
Drive acoustics, sound power:
Idle**: 2.1 bels (typical), 2.3 bels (max)
Seek: 2.4 bels (typical), 2.5 bels (max)
Nonrecoverable read errors: 1 per 10^14 bits read
Annualized Failure Rate (AFR) 0.34% 0.34%
Load/Unload cycles: 300K at 25°C, 50% rel. humidity
Supports Hotplug operation per the Serial ATA Revision 3.0 specification: Yes

hdparm

После смены режима жесткого диска (hda) с UDMA5 на UDMA2 начинает работать ide0:

Странным образом hdparm помогает избавиться от ошибок Asterisk:

Barracuda ES.2 ST3750330NS

Key Features and Benefits

  • Perpendicular recording technology for maximum capacity
  • 24×7 operation and 1.2 M hrs. MTBF
  • Dynamic power saving using Seagate PowerTrim™ technology
  • Broad spectrum rotational vibration tolerance at 12.5 rads/s2
  • Error recovery control — quick error resolution to prevent system timeouts
  • Workload management to ensure operational reliability
  • Quick and robust download with firmware security checks
  • Write Same command for efficient RAID initialization
  • Idle Read After Write data integrity checking
  • 16-MB cache
  • Low total cost of ownership
  • 5-year limited warranty

The Barracuda ES.2 drive is the perfect solution for high-capacity enterprise storage applications such as the migration of mission-critical transactional data, from tier 1 to tier 2 (nearline) storage, where dollars/GB and GB/watt are a primary concern. With energy-saving PowerTrim™ features, superior rotational vibration tolerance and a choice of SATA or SAS interfaces, the Barracuda ES.2 drive provides world-leading technology and value.

ST3750330NS

SPECIFICATIONS
Model Number ST3750330NS
Interface SATA 3Gb/s
Cache 32MB
Capacity 750GB
Guaranteed Sectors 1,465,149,168
PHYSICAL
Height 26.1mm (1.028 in)
Width 101.6mm (4.010 in)
Length 146.99mm (5.787 in)
Weight (typical) 633g (1.396 lb)
PERFORMANCE
Spin Speed 7,200 RPM
Average latency 4.16ms
Random read seek time 8.5ms
Random write seek time 9.5ms
RELIABILITY
Annual Failure Rate 0.73%
POWER
Maximum start current, DC 3.0

http://www.seagate.com/staticfiles/support/disc/manuals/NL35%20Series%20&%20BC%20ES%20Series/Barracuda%20ES.2%20Series/100468393h.pdf

S.M.A.R.T.

Какие проблемы позволяет выявить эта технология:

  1. Проблемы блока магнитных головок
  2. Повреждения дисков (физические повреждения, логичесские ошибки и т.п.)
  3. Проблемы механики (привода или системы позиционирования)
  4. Проблемы электронной части (платы)
  5. Температура

Установка:

smartctl — Control and Monitor Utility for SMART Disks.

Поддерживает многие ATA-3 и более поздние ATA, IDE, SATA и SCSI-3 диски.

smartd — демон, пытается включить SMART monitoring на ATA-устройствах (аналогично smartctl -s on) и будет опрашивать устройства каждые 30 минут, фиксирует ошибки дисков и изменения атрибутов через syslog-интерфейс.

Логи по-умолчанию найти можно в /var/log/messages.

В дополнение к логированию в файл, smartd может быть сконфигурирован для отсылки предупреждений на email, в случае обнаружения проблемы.

Выясняем, поддерживает ли диск SMART.

Включаем SMART, если выключен.

Для получения всей информации о диске:

Описание параметров таблицы smartctl:

RAW_VALUE — Каждый атрибут имеет raw value 6-ти байтовое значение
VALUE — одно байтовое значение усредненное.

Например в случае параметра «Temperature_Celsius» raw value хранит температуру диска (например 43 градуса)+ минимальную и максимальную температуру, при которой сохраняется работоспособность диска (например 33 и 45 градуса).

Формат raw data определяется производителем и не описан в стандарте. Firmware диска конвертирует raw value в normalized value в диапазоне от 1 до 253. Если это нормализованное значение меньше или равно threshold (THRESH), атрибут считается failed и отображается в столбце WHEN_FAILED. Если этот столбец пуст, все атрибуты в норме.

Минимальное (WORST) нормализованное значение тоже показано;
Это минимальное значение которое достигалось с момента включения SMART на диске.

TYPE — существует 2 типа атрибутов:

Критичные атрибуты: (Pre-fail)

Некритичные атрибуты: (Old_age) (величина value отведенная вендором до наработки на отказ (ресурс)).

Если VALUE стало меньше THRESH в случае Pre-fail атрибута — существует большая вероятность, что диск вылетит в ближайшие 24 часа.

Если VALUE стало меньше THRESH в случае Old_age атрибута — существует большая вероятность, что диск вылетит т.к. выработан ресурс. Вот только когда — науке это неизвестно.

Названия/значения атрибутов и интерпретация raw values не определена никаким стандартом. Иногда различные производители используют одинаковый Attribute ID для различных целей. Поэтому интерпретация специфических атрибутов smartctl может быть изменена опцией -v.

Уточнение: если возникли проблемы с SATA дисками — проверьте версию smartctl: для нормальной работы нужна последняя версия, например 5.38 или 5.39.

Демон smartd:

Редактируем /etc/smartd.conf

По-умолчанию там только одна опция DEVICESCAN
Рекомендуется закомментировать ее и просто перечислить список устройств, которые мы хотим мониторить.

/dev/hda устройство, которое мы собираемся мониторить
-o включает автоматическое off-line тестирование
-S включает автозапись атрибутов
-m за которой следует e-mail указывает куда warning сообщения отсылать
-a указывает smartd мониторить все SMART параметры диска

smartd по умолчанию фиксирует изменение значений всех атрибутов.

Директива -I 194 означает игнорировать атрибут #194, (т.е. температуру), т.к. температура диска часто меняется и нет смысла ее логировать.

Описание параметров:

Каждый атрибут имеет величину — Value.

Value Изменяется в диапазоне от 0 до 255 (задается производителем).

Низкое значение говорит о быстрой деградации диска или о возможном скором сбое. т.е. чем выше значение Value атрибута, тем лучше.

Raw Value — это значение атрибута во внутреннем формате производителя значение малоинформативно для всех кроме сервисманов.

Threshold. — минимальное возможное значение атрибута, при котором гарантируется безотказная работа накопителя.

При Значении атрибута меньше Threshold очень вероятен сбой в работе или полный отказ.

Атрибуты бывают критически важными (Pre-fail) и некритически важными (Old_age).

Выход критически важного параметра за пределы Threshold фактический означает выход диска из строя, выход за переделы допустимых значений некритически важного параметра свидетельствует о наличии проблемы, но диск может сохранять свою работоспособность.

Критичные атрибуты:

  • Raw Read Error Rate — частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
  • Spin Up Time — время раскрутки пакета дисков из состояния покоя до рабочей скорости. При расчете нормализованного значения (Value) практическое время сравнивается с некоторой эталонной величиной, установленной на заводе. Не ухудшающееся немаксимальное значение при Spin Up Retry Count Value = max (Raw равном 0) не говорит ни о чем плохом. Отличие времени от эталонного может быть вызвано рядом причин, например просадка по вольтажу блока питания.
  • Spin Up Retry Count — число повторных попыток раскрутки дисков до рабочей скорости, в случае если первая попытка была неудачной. Ненулевое значение Raw (соответственно немаксимальное Value) свидетельствует о проблемах в механической части накопителя.
  • Seek Error Rate — частота ошибок при позиционировании блока головок. Высокое значение Raw свидетельствует о наличии проблем, которыми могут являться повреждение сервометок, чрезмерное термическое расширение дисков, механические проблемы в блоке позиционирования и др. Постоянное высокое значение Value говорит о том, что все хорошо.
  • Reallocated Sector Count — число операций переназначения секторов. SMART в современных дисках способен произвести анализ сектора на стабильность работы «на лету» и в случае признания его сбойным, произвести его переназначение.

Некритичные атрибуты:

  • Start/Stop Count — полное число запусков/остановов шпинделя. Гарантировано мотор диска способен перенести лишь определенное число включений/выключений. Это значение выбирается в качестве Treshold. Первые модели дисков со скоростью вращения 7200 оборотов/мин имели ненадежный двигатель, могли перенести лишь небольшое их число и быстро выходили из строя.
  • Power On Hours — число часов проведенных во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF). Обычно величина MTBF огромна, и маловероятно, что этот параметр достигнет критического порога. Но даже в этом случае выход из строя диска совершенно не обязателен.
  • Drive Power Cycle Count — количество полных циклов включения-выключения диска. По этому и предыдущему атрибуту можно оценить, например, сколько использовался диск до покупки.
  • Temperatue — Здесь хранятся показания встроенного термодатчика. Температура имеет огромное влияние на срок службы диска (даже если она находится в допустимых пределах). Вернее имеет влияние не на срок службы диска а на частоту возникновения некоторых типов ошибок, которые влияют на срок службы.
  • Current Pending Sector Count — Число секторов, являющихся кандидатами на замену. Они не были еще определенны как плохие, но считывание их отличается от чтения стабильного сектора, так называемые подозрительные или нестабильные сектора.
  • Uncorrectable Sector Count — число ошибок при обращении к сектору, которые не были скорректированы. Возможными причинами возникновения могут быть сбои механики или порча поверхности.
  • UDMA CRC Error Rate — число ошибок, возникающих при передаче данных по внешнему интерфейсу. Могут быть вызваны некачественными кабелями, нештатными режимами работы.
  • Write Error Rate — показывает частоту ошибок происходящих при записи на диск. Может служить показателем качества поверхности и механики накопителя.

В SMART III появилась функция, позволяющая прозрачно для пользователя переназначать BAD сектора.

Работает механизм следующим образом: при неустойчивом чтении сектора, или же ошибки его чтения, SMART заносит его в список нестабильных и увеличит их счетчик (Current Pending Sector Count). Если при повторном обращении сектор будет прочитан без проблем, он будет выброшен из этого списка. Если же нет, то при представившейся возможности — при отсутствии обращений к диску, диск начнет самостоятельную проверку поверхности, в первую очередь подозрительных секторов. Если сектор будет признан сбойным, то он будет переназначен на сектор из резервной поверхности (соответственно RSC увеличиться). Такое фоновое переназначение приводит к тому, что на современных винчестерах сбойные секторы практически никогда не видны при проверке поверхности сервисными программами. В тоже время, при большом числе плохих секторов их переназначение не может происходить до бесконечности. Первый ограничитель очевиден — это объем резервной поверхности.

У современных винчестеров есть два дефект-листа P-list (Primary, заводской) и G-list (Growth, формируется непосредственно во время эксплуатации). И при большом числе переназначений может оказаться так, что в G-list не оказывается места для записи о новом переназначении. Эта ситуация может быть выявлена по высокому показателю переназначенных секторов в SMART.

Ссылки:

http://ksimute.trancom.ru/smart-hdd.shtml
http://www.linuxjournal.com/article/6983
http://smartmontools.sourceforge.net/
http://www.3dnews.ru/storage/smart/