【悲報】HP(ヒューレット・パッカード)、京大スパコンの3400万ファイル77TBを削除 重要な研究データも多数 HP「100%弊社の責任」 [517459952]
■ このスレッドは過去ログ倉庫に格納されています
スーパーコンピュータシステムのファイル消失のお詫び
2021年12月28日(火曜日)掲載
京都大学学術情報メディアセンター
センター長 岡部 寿男
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html >>543
馘だけならまだいいけど、>>530 が言うように復旧や代替手段の確保をしないといけない現場が大変だよ
再計算で復旧出来るデータならリソースをつぎ込めば何とかなるけど、二次データや外部連携で作られたデータはかなり厳しい >>230
これバックアップスクリプトのやらかしだから
クラウドでも消えるぞ お、テンプレ謝罪か
反省してないなこれ
ごめんなさい
再発防止します
終わり >>547
クラウドでもオンプレ的な使い方をしてると遭遇しうる問題だね
ただ、プラットフォーマー側はデータは冗長化してニアラインでの保存だから消失はほぼないかな
たまに動かない機能や落ちるデータセンターはあるけど >>21
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可) こういうの見るとシステムの仕事って恐ろしいなと思うわ クラウド側のやらかしと言えば、ファーストサーバがあったっけ
あれは2012年で、もう10年経つのか >>209
25PBをクラウドで管理したらいくらかかるのか。。。 >>555
Azureのホットの場合、$391,300/月なので115円換算だと\44,999,500で約4500万円/月か
容量に比べたら意外に安いかも
https://azure.microsoft.com/ja-jp/pricing/details/storage/blobs/ ゲートウェイの事を何度訂正して教えても
ゲッタウェイとしか言えなかった上司は今頃ボケてるんだろうなぁ そもそも何でシェル芸で運用してんだよpythonぐらい入れろや なんで最新の技術者が過去の抜き身の遺物をそのまま使ってるんだ? 円周率とか最大の素数とかが消えてわからなくなったってこと?
どうでもいい。 どうせ初心者が作業やらされて、そらでfindしてrmしたろ
俺にはわかる ミラーリングはバックアップではない・・・
何度も言ったよね? 作業者と作業手順とシェル仕様の組み合わせによる不幸な事故っぽく経緯まとめてるけど
そもそもの設計がおかしいよね >>571
これ。
実行中のシェルスクリプトを途中で書き換えて、バイト単位で差分が反映される需要なんて皆無だろ。 俺が職場でミスしたときに上司から書き直しせと言われた報告書を思い出す書き方だわ
なんだかとても辛くなった >>89
僕たちが持てるデータ永遠に忘れないでねー 77TBって一見すごい容量だけど
もう16TBのHDDとか普通に売ってるんだね バックアップをもう1世代増やしますってどうせそれも消してじゃあさらにもう1世代とかやるやつや HPサポートが糞すぎるしなw
現行で販売してる5万ほどのモニタの修理見積もり15万とかクソ見てえな事言われて喧嘩になったわw >>30
たぶん客にそう書けって指定されたんだろうな 現時点でHPEのサイトに今回の件が掲載されていない。
この手の話って、たとえ年末年始休業中であろうが載せるべき事項の様な気がするんだけどなぁ。 ゆうてもスパコンの計算クラスだと大容量ストレージから高速ストレージに計算のデータソースをロードした上で実行するから取り返しはつくんじゃないの? >>437
スクリプト実行中だったら処理を見合わせるみたいなスクリプトにできないんか?
同じスクリプトを二重起動しただけでも詰むだろこんなん バックアップ1箇所だけとかありえないだろ
まだお前らのほうが堅固なバックアップシステム築いてるよな >>588
ディスク容量25PBだけど、一体何ヶ所バックアップする気? 自称IT博士(笑)のジャップが「クラウド!」とかドヤッてて笑いが止まらない
知能ないお前ら猿は身の程を理解しろよw >>452
絶対パスにしてたところに入れた変数がブランクになって相対パスになったとか たぶん日本人スタッフだろ
HP本社ならこんな失態を犯すわけない >>594
そうだな
もし消えたんだったらわざとだな デルレノボHPで買った事あるけど
HPのパソコンが一番良く壊れたからなんか納得してしまう >>550
オンプレ的っていうかbashの仕様だから、オンプレだろうがクラウドだろうが
ケンモジサンのls専門ウブンチューだろうが、
同じことやったら全く同じように消えるよ 個人の持ってるデータ容量が数テラバイトある時代に
大学のスパコンが77テラってちょっと少なくね? 京大レベルで障害対策がミラーリングのみってことなのか?
あと「ミラーリングによるバックアップ」って表現おかしいだろ・・・
jkjkjkjk... 餅は餅屋だからな
なんぼ頭良くても知らん事は知らん >>82
むしろ訴訟大国のアメリカ企業なんて日本以上に謝ったら負けだぞ
本社から怒られるだろ >>571
バックアッププログラムがシェルで描かれてるのがそもそもおかしい
Findコマンドで差分バックアップなんて俺が3秒で考えつくレベル Linuxなんだろ?
LinuxはGUI操作じゃなくてコマンド操作だからヒューマンエラーが多くなるよな >>420
pathの中に変数があって未定義ならエラー吐く印象しかないけど
bashってそのまま実行するのか プログラムのプロじゃなくてもbash上のシエルスクリプト動作中にスクリプト走らせるとかやばいのわかるわ
しかも兄弟のスパコン物凄い演算速度でしょ >>603
消えたサイズが77TBってだけで、ディスク容量は24PB >>613
手元で試してみたら csh 系は undefined をはいて、Bourne shell 系は
NULL を返すようだ。系列で振る舞いが違うとか実に面倒なパターンだな。
csh 系でシェルスクリプトをかくのはご法度とは言えね。 >>169
だよね、
windowsのコマンドプロンプトでも起きるよね(起こしたし…)
bash云々って言い訳でしかないわ いずれにしてもまともな単体テストやってないよね
変数に値がなかったり、存在しないパスを渡したり
大文字のみ、小文字のみのパスを渡したりとか >>621
じゃあこれはどういう問題で何をすれば未然に防げたか言葉で表現できる?
スパコンと言えども
同じ処理系でスケールダウンした環境用意できると思うけど 普通バッチが止まっていることを確認してから更新するよね >>600
言葉が足りなかったか
クラウド使ってても、オンプレの時と同様に仮想マシンに運用スクリプトを仕込んでれば当然起こりうる話だってこと
AWSだのAzureだのは仮想マシンにしなくてもサービスやらストレージは使えるし、ストレージのバックアップ機能も提供してるからそっちなら従来の運用手法にはならんでしょ、と言いたかった >>624
もしかしてスクリプトレベルの改修なら
テストしないで納品するのが当たり前だと思ってるの? なんとか京大を叩こうとしている底辺がチラホラいてウケるわ ファイルはmvしてから消す
これでかなり安全になる
元から言えば、大切なデータなら非定型なログ形式でのこしておこうというのが間違い
ちゃんと正規化してDBに放り込め これだから自称冗長性有りのクラウドサービスつこうててもバックアップだけはオンプレミスで保管すべきなんだよ >>66
これはひどいね
LispやSchemeの素養があれば再帰的に書けたはず
それにちゃんとシステムプログラミング用の言語でガッチリ作られたものじゃなくてただのシェルなんだな
まあシェルでもできるけどさぁHPくらいの会社ならちゃんとしたモノ作ってると思った hpには中国人の社員がいるからな
あと千人計画に加担したハーバード大学の教授とかいるしね。何気に中国共産党にマンセーしている生粋の白人アメリカ人はかなりいる DCなら普通は定期的にLTOでバックアップ取るよね SSDはゴミだから論外として
HDDだけじゃなくて磁気テープも使って冗長化しておけば
こんなことにならなかっただろうに ヒューレット・パッカードって昔は車のメーカーだったろ
今パソコン屋なんか >>640
難しいな。問題のfindコマンドが実行されるよりも先に、新版リリースして上書きしないと、
テストしても再現しない。問題の箇所は、時刻ぴったりとかで始まるわけじゃないから。
「find-rmの始まる前に上書きしても大丈夫か、テストケースに加えよう」
って発想ができるなら、そもそもそんな手順にしないから スパコンって普通のPCじゃ出来ないようなシミュレーションなりでしか使わずデータは入ってない印象だがそうでも無いんだな
データ量的にファイルサーバーとしても兼ねてたのかね ■ このスレッドは過去ログ倉庫に格納されています