群晖存储池损毁。联系群晖技术支持,技术支持说日志里出现过 UNC 错误,一般代表硬盘本身发生故障,需要及时更换。 删了一下文件后重启就正常了(硬盘状态良好)。查看 S.M.A.R.T. 没发现任何异常记录。过一周,又提示存储池 损毁,我在日志里发现了 20 来条 Write error at internal disk 在 不同的 sector 。 之前一次是没有 I/O 错误日志的。查看 S.M.A.R.T. 还是很健康。
请问是硬盘硬件问题还是逻辑问题?
1
listenfree 247 天前
估计是硬盘问题,ssh 上去用 smartctl 看一下。
|
2
serafin OP |
3
HojiOShi 247 天前
你自己看看 5 197 198 都不是 0 了,SMART 怎么可能还会报健康?你硬盘在哪买的?
|
5
serafin OP 不过是 USB 拆出来的。希捷 16TB 氦气
|
6
listenfree 247 天前
sudo smartctl -x -d sat /dev/sata(?) | more. ? 根据你硬盘的情况换成 1 或 2...
如果有下面的内容,smart 就会报健康,但是可以已经有坏块了。 = START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED |
7
listenfree 247 天前
我 8G 矿盘的信息,你可参考
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate PO-R-- 100 100 016 - 0 2 Throughput_Performance P-S--- 134 134 054 - 104 3 Spin_Up_Time POS--- 200 200 024 - 458 (Average 199) 4 Start_Stop_Count -O--C- 100 100 000 - 1225 5 Reallocated_Sector_Ct PO--CK 100 100 005 - 0 7 Seek_Error_Rate PO-R-- 100 100 067 - 0 8 Seek_Time_Performance P-S--- 128 128 020 - 18 9 Power_On_Hours -O--C- 099 099 000 - 12216 10 Spin_Retry_Count PO--C- 100 100 060 - 0 12 Power_Cycle_Count -O--CK 100 100 000 - 22 22 Helium_Level PO---K 100 100 025 - 100 192 Power-Off_Retract_Count -O--CK 099 099 000 - 1651 193 Load_Cycle_Count -O--C- 099 099 000 - 1651 194 Temperature_Celsius -O---- 181 181 000 - 33 (Min/Max 12/46) 196 Reallocated_Event_Count -O--CK 100 100 000 - 0 197 Current_Pending_Sector -O---K 100 100 000 - 0 198 Offline_Uncorrectable ---R-- 100 100 000 - 0 199 UDMA_CRC_Error_Count -O-R-- 200 200 000 - 0 |
8
ntedshen 246 天前
感觉。。。但凡截个图丢微信或者丢个翻译软件也不至于讲出这 smart 算正常。。。
错都报在这还跑 selftest 。。。跑的越多只会死的越快。。。 |
9
luodan 246 天前
记得拆解 Seagate 的盘要贴脚的,不能直接用。
|
10
cue 246 天前 via iPhone
我之前存储盘也总是损毁,换了 3 块机械硬盘都用不超过一个月,最后忍无可忍换一块 Sata SSD 一劳永逸了。
|
12
szzys 246 天前 via Android
我家的群晖都被玩具埋在一起了。快 10 年了还没坏
|
13
Yadomin 246 天前 via Android
毁了一次你还敢接着用🐮
|
14
geniussoft 246 天前 via iPhone
1. 希捷拆盘是垃圾。
2. Smart 检测和结果是硬盘固件提供的,DSM 只负责显示。 |
16
serafin OP 目前硬盘状态不错,DSM 强制开了只读模式。备份了大概 4TB 的数据,希望可以坚持到最后。读取速度保持在 110MB/s - 150MB/s 。
|
17
ferock 246 天前 via iPhone
|
18
jzphx 246 天前
希捷一身黑,群晖挂了两块希捷,台式机挂了半块。后面都搞的西数日立没再损毁过
|
19
chunkingName 246 天前
请问这个 smart 怎么看好还是坏啊 现值比临界值大就是好么?
|
20
libook 246 天前
前不久刚淘汰一块 Uncorrectable Sectors Count 报 6 的盘,扫扇区发现 6 个扇区不可用、5 个扇区不佳。继续用肯定就会很快恶化了。你这个已经高得比较夸张了。
具体判断硬盘是不是健康最好还是直接看报告里的具体指标。 硬盘故障是比较看运气的,同品牌同型号的硬盘,我有用 2 年就异常走售后的,也有用了 5 年没有任何毛病的。 |
21
dpx 246 天前 1
希捷和西数对待坏道的处理方式不同,西数遇到坏道会标记躺平,所以早期很容易发现,希捷是尝试隐藏处理坏道从而继续正常使用,坏道少的话没问题,通常会造成很严重才会发现。
|
23
bolsterhoo 246 天前
电子产品这种是看脸,13 年买的,同时买的 2 块 2T 的,目前情况良好
![NAS]( https://img2.imgtp.com/2024/04/25/VcZiLYU6.png "NAS") |
24
Autonomous 245 天前
我有个希捷酷狼也是有坏块,SMART 快速检测无法发现,需要完全检测才行
|
25
serafin OP @Autonomous 能映射坏快继续用吗?
|
26
Autonomous 244 天前
@serafin 发现坏块后存储空间没有损毁,硬盘会自动重映射,我把重要数据转移走,踢出 RAID ,并执行了一次 Secure Erase ,之后这块盘只用于存储监控录像和备份。
|
27
hanyuwei70 243 天前
你这个 23k 小时就有 17k 的不可修复扇区了?我有点怀疑你这个是清零盘。
说真的,换盘吧。 |
28
pigeon2049 243 天前
(建议三台 nas 装 pve 组 ceph
设置双副本或者三副本 坏了块盘直接换,甚至不影响读写 (硬件层面的 raid 或者软 raid 并不保险 现在普遍 10t 单盘以上,真坏盘你还得得一两周重建时间,我猜大部分人等不起 |
29
luoshengdu 243 天前
|
30
serafin OP @luoshengdu 我这里也显示良好,要看 smart 详细的项目
|
31
luoshengdu 242 天前
@serafin #30 那就继续用一阵子呗。不放重要数据挂了也不怕
|
32
Co1e 242 天前
快速检测不准确的,建议更换硬盘
|