SSD defekt?

Mac Gyver · 21. August 2012

Hi

Ich habe in einem meiner Server eine SSD verbaut. Nun bin ich gerade dabei ein script zu schreiben das einfach einen snapshot eines LV erstellt und anschließend per dd in ein File kopiert. Bei allen Volumes funktioniert das auch problemlos aber bei einem bricht das Kommando nach immer genau 4,0gb mit einem Ein/Ausgabefehler ab:

Code

root@hammond:/backup/snapshots/vg_system/ipfire-boot# dd if=/dev/vg_system/hammond-disk.snap of=/dev/null
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+0 Datensätze ein
7744016+0 Datensätze aus
3964936192 Bytes (4,0 GB) kopiert, 36,5583 s, 108 MB/s

ich habe es dann noch testhabler mit noerror probiert:

Code

root@hammond:~# dd if=/dev/vg_system/hammond-disk.snap of=/dev/null conv=noerror,sync
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+0 Datensätze ein
7744016+0 Datensätze aus
3964936192 Bytes (4,0 GB) kopiert, 36,288 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+1 Datensätze ein
7744017+0 Datensätze aus
3964936704 Bytes (4,0 GB) kopiert, 36,3012 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+2 Datensätze ein
7744018+0 Datensätze aus
3964937216 Bytes (4,0 GB) kopiert, 36,3072 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+3 Datensätze ein
7744019+0 Datensätze aus
3964937728 Bytes (4,0 GB) kopiert, 36,313 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+4 Datensätze ein
7744020+0 Datensätze aus
3964938240 Bytes (4,0 GB) kopiert, 36,3188 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+5 Datensätze ein
7744021+0 Datensätze aus
3964938752 Bytes (4,0 GB) kopiert, 36,3305 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+6 Datensätze ein
7744022+0 Datensätze aus
3964939264 Bytes (4,0 GB) kopiert, 36,337 s, 109 MB/s
dd: Lesen von „/dev/vg_system/hammond-disk.snap“: Eingabe-/Ausgabefehler
7744016+7 Datensätze ein
7744023+0 Datensätze aus
3964939776 Bytes (4,0 GB) kopiert, 36,3432 s, 109 MB/s
39993336+8 Datensätze ein
39993344+0 Datensätze aus
20476592128 Bytes (20 GB) kopiert, 492,952 s, 41,5 MB/s

Alles anzeigen

Es dürften sich wohl einige defekte Blöcke eingeschlichen haben - ist das möglich? Bzw sollten SSDs nicht entsprechend Reserveblöcke mitführen?
Irgendwelche Ideen was es sonst sein könnte?

mfg
Alex

Keine_Ahnung · 21. August 2012

Nicht rumraten, "smartctl" nutzen. Für solche Fragen wurde S.M.A.R.T. erfunden.

BTW: Es ist nicht zufällig FAT32 (oder was anderes älteres) im Spiel? Weil Abbrüche nach genau 4GB ist schon auffällig.
Edit: OK, vergiss es, schreiben nach /dev/null sollte dann ja klappen Aber für defekte Blöcke ist das zu auffällig, klingt eher danach ob eine beteiligte Software zu alt ist.

cu

Mac Gyver · 21. August 2012

Hi

FAT32 oder vergleichbar ist definitiv nicht im spiel - die Kiste läuft auf Debian 6 mit Kernel 2.6.32-5-xen-amd64. Dass es da noch irgendwelche Software gibt die Probleme macht glaube ich nicht. Ausserdem habe ich auch ein anderes 20GB Volume auf der gleichen Disk in der gleichen VG Problemlos wegschreiben können.
Was ich für möglich halte ist dass das Volume ursprünglich 4GB groß war und ich nachträglich vergrößert habe. Könnte es daran liegen?

mfg
Alex

Mac Gyver · 21. August 2012

Hi

also einen Softwarefehler schließe ich fast aus - ich habe jetzt mal versucht die ganze Disk zu lesen:

Code

root@hammond:~# dd if=/dev/sdh of=/dev/null conv=noerror,sync
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+0 Datensätze ein
24245136+0 Datensätze aus
12413509632 Bytes (12 GB) kopiert, 119,911 s, 104 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+1 Datensätze ein
24245137+0 Datensätze aus
12413510144 Bytes (12 GB) kopiert, 119,917 s, 104 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+2 Datensätze ein
24245138+0 Datensätze aus
12413510656 Bytes (12 GB) kopiert, 119,923 s, 104 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+3 Datensätze ein
24245139+0 Datensätze aus
12413511168 Bytes (12 GB) kopiert, 119,936 s, 104 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+4 Datensätze ein
24245140+0 Datensätze aus
12413511680 Bytes (12 GB) kopiert, 119,942 s, 103 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+5 Datensätze ein
24245141+0 Datensätze aus
12413512192 Bytes (12 GB) kopiert, 119,95 s, 103 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+6 Datensätze ein
24245142+0 Datensätze aus
12413512704 Bytes (12 GB) kopiert, 119,962 s, 103 MB/s
dd: Lesen von „/dev/sdh“: Eingabe-/Ausgabefehler
24245136+7 Datensätze ein
24245143+0 Datensätze aus
12413513216 Bytes (12 GB) kopiert, 119,968 s, 103 MB/s 
234441640+8 Datensätze ein
234441648+0 Datensätze aus
120034123776 Bytes (120 GB) kopiert, 2974,17 s, 40,4 MB/s

Alles anzeigen

scheint so als hätte die SSD einen Schaden - aber warum springt keiner der Reservesektoren ein?

mfg
Alex

Mac Gyver · 21. August 2012

hier noch die Ausgabe von smartctl - bestätigt meine Vermutung aber lässt die Frage nach den Reservesektoren offen:

Code

root@hammond:~# smartctl -a /dev/sdh
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net


=== START OF INFORMATION SECTION ===
Model Family:     OCZ Vertex SSD
Device Model:     OCZ VERTEX PLUS
Serial Number:    5N5IR40BN26XFQ2066PZ
Firmware Version: 3.50
User Capacity:    120,034,123,776 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Aug 21 21:20:11 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED


General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121)	The previous self-test completed having
					the read element of the test failed.
Total time to complete Offline 
data collection: 		 (   0) seconds.
Offline data collection
capabilities: 			 (0x1d) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Abort Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					No Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x00)	Error logging NOT supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   0) minutes.
Extended self-test routine
recommended polling time: 	 (   0) minutes.


SMART Attributes Data Structure revision number: 18
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0000   ---   ---   ---    Old_age   Offline      -       262148
  3 Spin_Up_Time            0x0000   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0000   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0000   100   100   000    Old_age   Offline      -       1
  9 Power_On_Hours          0x0000   ---   ---   ---    Old_age   Offline      -       232481892
 12 Power_Cycle_Count       0x0000   ---   ---   ---    Old_age   Offline      -       746596
232 Available_Reservd_Space 0x0000   100   100   000    Old_age   Offline      -       13392
233 Media_Wearout_Indicator 0x0000   100   000   000    Old_age   Offline      -       100


Warning: device does not support Error Logging
Warning! SMART ATA Error Log Structure error: invalid SMART checksum.
SMART Error Log Version: 1
No Errors Logged


SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%       219         24245137
# 2  Short offline       Aborted by host               90%       218         -
# 3  Short offline       Aborted by host               90%       218         -


Device does not support Selective Self Tests/Logging

Alles anzeigen

Keine_Ahnung · 21. August 2012

Evtl. greift das nur beim schreiben? "short" liest ja nur, der "long" wäre wohl der richtige für nen Kompletttest.

cu

asshep · 21. August 2012

Wie gross ist dein snapshot Volume ? 4GB ?
Ich bin mir nicht sicher, ob man von einem snapshot Volume ein DD machen kann, da es nur die orginalversion der geaenderten Bloecke des Orginal's enthaelt.
Wenn man ueber das Fielsystem zugreift, ist das transparent, d.h. geaenderte Bloecke werden vom Snapshot gelesen, unveraenderte vom Orginal Volume. Regeln tut das der LVM
Mit direkt Zugriff (dd) auf das Blockdevice umgehst Du mAn den LVM

btw Warum dd und nicht einfach ein Copy der Files ?

Edit
# mount /dev/vg_system/hammond-disk.snap /mnt
# tar czf /some/dir/mybackup.tar.gz /mnt/*

Mac Gyver · 21. August 2012

Hi

Den long Test habe ich schon angestossen aber der dauert halt noch etwas.

den Snapshot habe ich jetzt mal 10GB groß gemacht um das auszuschließen. Dass dd Probleme mit Snapshots hat glaube ich auch nicht da der Fehler bei anderen Snapshots auch nicht Auftritt. Ausserdem habe ich bei meinem letzten Versuch direkt vom Device gelesen und es kam zum gleichen Fehler - ich habe mir zwar nicht ausgerechnet ob es die gleiche Stelle ist aber da es exakt gleich viele Fehler gibt und es gefühlsmäßig auch hinkommt gehe ich davon mal aus.

dd verwende ich deshalb weil ich ich damit bootfähige Images meiner virtuellen Maschinen erhalte und verschlüsselte Volumes sichern kann ohne mich beim Backup mit der Verschlüsselung herumschlagen zu müssen.

mfg
Alex

Argus · 21. August 2012

Zitat von Mac Gyver

scheint so als hätte die SSD einen Schaden - aber warum springt keiner der Reservesektoren ein?

tut er doch, zumindest einer

Aber das ist an sich ein schlechtes Zeichen. Durch gutes „Wear-Levelling“ sind alle Sektoren gleichmäßig abgenutzt, wenn der erste ausgewechselt werden muss, könnte sich das Ende abzeichnen. Ich würde den smart Wert mal im Auge behalten.

Gruß Fr@nk

Dirk · 21. August 2012

Hoi

coole SSD

Code

9 Power_On_Hours          0x0000   ---   ---   ---    Old_age   Offline      -       232481892

die lief schon 26540 JAHRE

Was mir da aber mehr sorgen macht

Code

1 Raw_Read_Error_Rate     0x0000   ---   ---   ---    Old_age   Offline      -       262148

Gibts ein Test-Tool vom Hersteller? Wenn ja -> mal laufen lassen.
ich würde einfach mal versuchen die SSD per copy zu sichern, z.B. wie es asshep vorgeschlagen hat. Evtl. hast du Glück und der "Problembereich" is nicht in den Files.

Keine_Ahnung

ich hab noch keine Platte gesehen, die einen Long-Test durchgestanden hat, wenn schon der Short-Test versagt hat. Mit SSD hab ich aber zugegeben bisher keine Erfahrung, das €/GB Verhältnis ist mir einfach noch zu hoch.

ATD · 21. August 2012

Zitat von Dirk

Mit SSD hab ich aber zugegeben bisher keine Erfahrung, das €/GB Verhältnis ist mir einfach noch zu hoch.

Dirk, probiere die einmal aus. Du willst dann keine andere Systemplatte mehr haben wollen. Versprochen.

Albert

Dirk · 21. August 2012

öhm ...

Wolltest du dich nicht bessern und weniger Threads mit OT-Beiträgen "bereichern"? (NEIN, ich will darauf keine Antwort!!!)

Hier gehts immer noch um eine evtl. defekte SSD und nicht um Läuterung von SSD-Abtrünnigen!

Argus · 21. August 2012

Zitat von Dirk
Was mir da aber mehr sorgen macht
Code
1 Raw_Read_Error_Rate     0x0000   ---   ---   ---    Old_age   Offline      -       262148

Kann ein Problem darstellen, muss aber nicht.
Viele Hersteller haben dort astronomisch hohe Werte , ohne problematisch zu sein (bsw. Seagate). Dieser RAW Wert bedeutet nicht zwangsläufig, das es so viele Lese Fehler gegeben hat. Vielmehr gibt der Hersteller dort einen Wert aus, den nur er interpretieren kann.

Gruß Fr@nk

Keine_Ahnung · 21. August 2012

Zitat von Dirk

ich hab noch keine Platte gesehen, die einen Long-Test durchgestanden hat, wenn schon der Short-Test versagt hat.

Die Idee war das beim Long Test die Reservesektoren angetriggert werden weil hier auch geschrieben wird.
Wobei ich hier generell wohl auch ein Verständnisproblem habe, denn ich gehe eigentlich davon aus das ne HDD die Reservesektoren so ganz automatisch ins Spiel bringt wenn Lese- oder Schreibfehler auftreten. Weil sonst macht so was ja keinen Sinn.

BTW: Ansonsten halte ich es ganz simpel, bei Verdacht auf HDD Problemen den long Test (den short probiere ich gar nicht erst), zeigt dieser Fehler dann HDD tauschen.

cu

ATD · 21. August 2012

Zitat von Dirk

Hier gehts immer noch um eine evtl. defekte SSD und nicht um Läuterung von SSD-Abtrünnigen!

Dirk, Du hast Recht.

Ich würde die Platte mit CrystalDiskInfo anschauen. W ist da Linux voraus. Wenn ich mich recht irre, OCZ bietet nicht unbedingt was gebrauchbares, zumindest nicht unter Linux. Wenn ja, lasse ich mich eines Besseren belehren.

Was lola schreibt, das hat die c't in öfteren bestätigt. Schon die Werte der Hersteller bezüglich Lebensdauer gehen astronomisch auseinander.

Albert

3PO · 21. August 2012

"Tools" gibt es für SSDs nicht, zumindest mal keine, die etwas taugen.

Das ist aber auch nicht weiter schlimm, da SSDs solche Tools so oder so nicht benötigen.

smartctl bring da auch nichts, was ja obige Ausgabe bestätigt.

Zitat

Code

Warning: device does not support Error Logging

geronimo · 22. August 2012

Moin moin,

Zitat

Was ich für möglich halte ist dass das Volume ursprünglich 4GB groß war und ich nachträglich vergrößert habe. Könnte es daran liegen?

Hm, ich hatte einen ähnlichen Fall mal bei einer "normalen" Festplatte - also so einer mit drehenden Scheiben
Die hatte ich ne ganze Weile mit einer Partitionierung im Einsatz und nach der Umpartitionierung gab es immer wieder Fehler, meist im Bereich der alten Partitionierung.
Ich habe dann mal Lowlevel formatiert und die Fehler waren Geschichte.

Logisch kann ich es mir zwar nicht exakt herleiten, aber es sollen ja schon Pferde gekotzt haben

Gruß Gero

g3joker · 22. August 2012

Zitat von geronimo

aber es sollen ja schon Pferde gekotzt haben

Gruß Gero

...stimmt, vor der apotheke sogar mit aspirin im maul...

mal was ganz anderes...wie VOLL ist die platte denn? also zu wieviel prozent ist die ungefähr belegt?
die ssd's versuchen ja die daten gleichmäßig auf die einzelnen blöcke zu verteilen um die schreibzugriffe pro block zu minimieren. wenn natürlich nun schon alle blöcke teileise belegt sind und er versucht auf einem blobk zu schreiben welcher defekt ist?! kenne mich nicht ganz so mit der logik einer ssd aus, für mich wäre aber auch naheliegend dass einzelne blöcke defekt sind (zumal smart das auch bestätigt)...ich würd das versuchen was gero gesagt hat, versuch den inhalt der ssd auf ne andere platte zu klonen, einmal komplett low-level-format und dann wieder drauf...
ich habe in meinem laptop die gleiche ssd, mir ist der vorgänger auch hops gegangen (allerdings war da auf mal die ssd nicht mehr vom bios erkannt worden). ocz ist zwar recht günstig und schnell aber nicht gerade einer der besten ssd-hersteller. aber da hat jeder seine vorlieben.

halbfertiger · 22. August 2012

Wurde die SSD einfach so partitioniert ohne dass die Tools wussten dass es sich um eine SSD handelt? Oder begannen die Partitionsgrenzen immer wie es sein soll an einer Blockgrenze?

Mac Gyver · 22. August 2012

So nun ist auch der long test fertig:

Code

smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net


=== START OF INFORMATION SECTION ===
Model Family:     OCZ Vertex SSD
Device Model:     OCZ VERTEX PLUS
Serial Number:    5N5IR40BN26XFQ2066PZ
Firmware Version: 3.50
User Capacity:    120,034,123,776 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Aug 22 09:07:06 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED


General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121)	The previous self-test completed having
					the read element of the test failed.
Total time to complete Offline 
data collection: 		 (   0) seconds.
Offline data collection
capabilities: 			 (0x1d) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Abort Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					No Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x00)	Error logging NOT supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   0) minutes.
Extended self-test routine
recommended polling time: 	 (   0) minutes.


SMART Attributes Data Structure revision number: 18
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0000   ---   ---   ---    Old_age   Offline      -       262148
  3 Spin_Up_Time            0x0000   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0000   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0000   100   100   000    Old_age   Offline      -       1
  9 Power_On_Hours          0x0000   ---   ---   ---    Old_age   Offline      -       233268324
 12 Power_Cycle_Count       0x0000   ---   ---   ---    Old_age   Offline      -       746596
232 Available_Reservd_Space 0x0000   100   100   000    Old_age   Offline      -       13418
233 Media_Wearout_Indicator 0x0000   100   000   000    Old_age   Offline      -       100


Warning: device does not support Error Logging
Warning! SMART ATA Error Log Structure error: invalid SMART checksum.
SMART Error Log Version: 1
No Errors Logged


SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%       220         24245137
# 2  Short offline       Completed: read failure       90%       219         24245137
# 3  Short offline       Aborted by host               90%       218         -
# 4  Short offline       Aborted by host               90%       218         -


Device does not support Selective Self Tests/Logging
root@hammond:~#

Alles anzeigen

Ich werde die Disk wohl tauschen müssen - Wenn bei einem read vom Device direkt (dd if=/dev/sdh) fehler auftreten dann kann das wohl kaum mit der Formatierung oder dem LVM zusammen hängen. Das Wegkopieren des Volumes mit Rsync hat funktioniert - es dürften also keine Dateien beschädigt sein (zumindest keine die ich noch habe)

Merkwürdig finde ich auch noch das bei dem Test eine Lifetime von 220h also etwas unter 10Tagen angegeben wird - die Platte ist seit gut einem halben Jahr in einem 24/7 Server im Einsatz......

Sollte noch irgendjemandem einfallen warum die Reservesektoren sich ihrer Aufgabe entziehen währe ich sehr dankbar darüber.....

mfg
Alex

SSD defekt?

Jetzt mitmachen!

Teilen

Benutzer online in diesem Thema