X



【悲報】HP(ヒューレット・パッカード)、京大スパコンの3400万ファイル77TBを削除 重要な研究データも多数 HP「100%弊社の責任」 [517459952]
■ このスレッドは過去ログ倉庫に格納されています
0001番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ f14e-itW9)
垢版 |
2021/12/29(水) 09:01:08.05ID:ivXwwo/q0?PLT(12001)

スーパーコンピュータシステムのファイル消失のお詫び
2021年12月28日(火曜日)掲載


京都大学学術情報メディアセンター
センター長 岡部 寿男

2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.

皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.

今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.

ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)

障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html

ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.

日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)

今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.

ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.

一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.

https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
0546番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 57fd-4QL8)
垢版 |
2021/12/29(水) 15:26:41.20ID:sPb/Vn5s0NIKU
>>543
馘だけならまだいいけど、>>530 が言うように復旧や代替手段の確保をしないといけない現場が大変だよ
再計算で復旧出来るデータならリソースをつぎ込めば何とかなるけど、二次データや外部連携で作られたデータはかなり厳しい
0548番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 3f0d-PzKp)
垢版 |
2021/12/29(水) 15:34:43.61ID:3lARPwI00NIKU
お、テンプレ謝罪か
反省してないなこれ


ごめんなさい
再発防止します
終わり
0549番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sd37-4wY7)
垢版 |
2021/12/29(水) 15:36:08.53ID:U97KzW9GdNIKU
研究費300%補償で許してやれよ
0550番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 57fd-4QL8)
垢版 |
2021/12/29(水) 15:40:08.64ID:sPb/Vn5s0NIKU
>>547
クラウドでもオンプレ的な使い方をしてると遭遇しうる問題だね
ただ、プラットフォーマー側はデータは冗長化してニアラインでの保存だから消失はほぼないかな
たまに動かない機能や落ちるデータセンターはあるけど
0552番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Saed-qkX7)
垢版 |
2021/12/29(水) 15:43:09.15ID:OpGKkOAtaNIKU
>>21
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
0553番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 233a-QQu6)
垢版 |
2021/12/29(水) 15:47:34.45ID:/PyQye8g0NIKU
こういうの見るとシステムの仕事って恐ろしいなと思うわ
0554番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 57fd-4QL8)
垢版 |
2021/12/29(水) 15:48:14.00ID:sPb/Vn5s0NIKU
クラウド側のやらかしと言えば、ファーストサーバがあったっけ
あれは2012年で、もう10年経つのか
0555番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 578f-r2lu)
垢版 |
2021/12/29(水) 15:49:59.95ID:RpOQVV4d0NIKU
>>209
25PBをクラウドで管理したらいくらかかるのか。。。
0556番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM07-iKRz)
垢版 |
2021/12/29(水) 15:51:38.79ID:sH4uWtQhMNIKU
個人でもバックアップ取っとかないと地獄見るな
0560番組の途中ですがアフィサイトへの転載は禁止です (ニククエW f719-4EXq)
垢版 |
2021/12/29(水) 15:57:04.07ID:CxM91lqg0NIKU
ゲートウェイの事を何度訂正して教えても
ゲッタウェイとしか言えなかった上司は今頃ボケてるんだろうなぁ
0561番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sa2f-XZsz)
垢版 |
2021/12/29(水) 15:57:14.43ID:qKQVyQ1WaNIKU
富士通以下
0564番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Saed-EFTI)
垢版 |
2021/12/29(水) 16:06:54.78ID:StQCejwOaNIKU
そもそも何でシェル芸で運用してんだよpythonぐらい入れろや
0565番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sa2f-XZsz)
垢版 |
2021/12/29(水) 16:15:42.84ID:BfKBb7d4aNIKU
なんで最新の技術者が過去の抜き身の遺物をそのまま使ってるんだ?
0566番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 6b94-scCo)
垢版 |
2021/12/29(水) 16:18:32.98ID:rj+CsroY0NIKU
円周率とか最大の素数とかが消えてわからなくなったってこと?
どうでもいい。
0569番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 715d-3LGs)
垢版 |
2021/12/29(水) 16:45:43.13ID:XDb0O1N50NIKU
>>551
契約によるんじゃね
0570番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM97-jWCF)
垢版 |
2021/12/29(水) 16:46:01.75ID:mZpVF192MNIKU
こういう消失事故、金融関係ではほぼ見ないよな。
0571番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 07df-AZ4j)
垢版 |
2021/12/29(水) 16:52:46.54ID:VJurdm1D0NIKU
作業者と作業手順とシェル仕様の組み合わせによる不幸な事故っぽく経緯まとめてるけど
そもそもの設計がおかしいよね
0572番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM97-jWCF)
垢版 |
2021/12/29(水) 16:55:55.34ID:mZpVF192MNIKU
>>571
これ。
実行中のシェルスクリプトを途中で書き換えて、バイト単位で差分が反映される需要なんて皆無だろ。
0576番組の途中ですがアフィサイトへの転載は禁止です (ニククエW f756-u/tG)
垢版 |
2021/12/29(水) 17:17:18.30ID:s5+84hlQ0NIKU
77TBって一見すごい容量だけど
もう16TBのHDDとか普通に売ってるんだね
0577番組の途中ですがアフィサイトへの転載は禁止です (ニククエT Sa71-jNcW)
垢版 |
2021/12/29(水) 17:17:30.03ID:kSgDpr9oaNIKU
バックアップをもう1世代増やしますってどうせそれも消してじゃあさらにもう1世代とかやるやつや
0580番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 3f8c-6JTd)
垢版 |
2021/12/29(水) 18:02:58.37ID:kLdkJo240NIKU
>>30
たぶん客にそう書けって指定されたんだろうな
0581番組の途中ですがアフィサイトへの転載は禁止です (ニククエW FFaf-LIX/)
垢版 |
2021/12/29(水) 18:45:42.27ID:Tl+ltC98FNIKU
現時点でHPEのサイトに今回の件が掲載されていない。
この手の話って、たとえ年末年始休業中であろうが載せるべき事項の様な気がするんだけどなぁ。
0582番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 7d17-e50p)
垢版 |
2021/12/29(水) 18:47:43.49ID:YsNqY67L0NIKU
ほかにバックアップしてないの?
ありえないんだが
0583番組の途中ですがアフィサイトへの転載は禁止です (ニククエW db34-p7NS)
垢版 |
2021/12/29(水) 18:50:38.76ID:JYSs8sNA0NIKU
ゆうてもスパコンの計算クラスだと大容量ストレージから高速ストレージに計算のデータソースをロードした上で実行するから取り返しはつくんじゃないの?
0584番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM89-VT4O)
垢版 |
2021/12/29(水) 19:00:00.70ID:IohbZ9JNMNIKU
>>437
スクリプト実行中だったら処理を見合わせるみたいなスクリプトにできないんか?
同じスクリプトを二重起動しただけでも詰むだろこんなん
0585番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sp1f-Pk52)
垢版 |
2021/12/29(水) 19:06:26.88ID:KVB+43XBpNIKU
とりあえずヨシ!
0586番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sd03-pwkZ)
垢版 |
2021/12/29(水) 19:15:31.40ID:rbL7NBT4dNIKU
ユーザーにケンモメンいねえのかよ
0588番組の途中ですがアフィサイトへの転載は禁止です (ニククエW e9b7-1Ci9)
垢版 |
2021/12/29(水) 19:29:41.57ID:0FvPN9pB0NIKU
バックアップ1箇所だけとかありえないだろ
まだお前らのほうが堅固なバックアップシステム築いてるよな
0589番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM97-jWCF)
垢版 |
2021/12/29(水) 19:36:03.69ID:UQ4B54n5MNIKU
>>588
ディスク容量25PBだけど、一体何ヶ所バックアップする気?
0590番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 1d56-j5Xv)
垢版 |
2021/12/29(水) 19:38:03.98ID:VYORK5/C0NIKU
自称IT博士(笑)のジャップが「クラウド!」とかドヤッてて笑いが止まらない
知能ないお前ら猿は身の程を理解しろよw
0591番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM07-iKRz)
垢版 |
2021/12/29(水) 19:55:50.01ID:sH4uWtQhMNIKU
一つのスクリプトに色々させると被害も大きいわな
0593番組の途中ですがアフィサイトへの転載は禁止です (ニククエW db34-p7NS)
垢版 |
2021/12/29(水) 20:04:25.18ID:JYSs8sNA0NIKU
>>452
絶対パスにしてたところに入れた変数がブランクになって相対パスになったとか
0595番組の途中ですがアフィサイトへの転載は禁止です (ニククエW e30d-F0Bj)
垢版 |
2021/12/29(水) 20:18:08.63ID:bs++z+Lf0NIKU
>>594
そうだな
もし消えたんだったらわざとだな
0596番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 9fd2-j5Xv)
垢版 |
2021/12/29(水) 20:25:37.14ID:ZJOqo1IH0NIKU
お笑い
0597番組の途中ですがアフィサイトへの転載は禁止です (ニククエ eb0d-t0J7)
垢版 |
2021/12/29(水) 20:33:28.29ID:L651FvIY0NIKU
不都合じゃなくて現場ネコだろw
人的ミスだから
0598番組の途中ですがアフィサイトへの転載は禁止です (ニククエ a3fe-j5Xv)
垢版 |
2021/12/29(水) 20:39:20.33ID:nBp2XijY0NIKU
デルレノボHPで買った事あるけど
HPのパソコンが一番良く壊れたからなんか納得してしまう
0600番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sddb-PueI)
垢版 |
2021/12/29(水) 20:58:06.78ID:+Xu2AzYidNIKU
>>550
オンプレ的っていうかbashの仕様だから、オンプレだろうがクラウドだろうが
ケンモジサンのls専門ウブンチューだろうが、
同じことやったら全く同じように消えるよ
0602番組の途中ですがアフィサイトへの転載は禁止です (ニククエ Sr93-qkX7)
垢版 |
2021/12/29(水) 21:00:28.37ID:MZJ4+pd9rNIKU
誠にごめんなさい
0603番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 5b73-nJrO)
垢版 |
2021/12/29(水) 21:14:05.97ID:8cVRbXGT0NIKU
個人の持ってるデータ容量が数テラバイトある時代に
大学のスパコンが77テラってちょっと少なくね?
0605番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM4b-iKRz)
垢版 |
2021/12/29(水) 21:20:04.74ID:qN9G6nOIMNIKU
餅は餅屋だからな
なんぼ頭良くても知らん事は知らん
0606番組の途中ですがアフィサイトへの転載は禁止です (ニククエ af8f-cuv/)
垢版 |
2021/12/29(水) 21:24:09.69ID:iwlIwJhE0NIKU
set -u を書いておけとあれほど言ったのに
0607番組の途中ですがアフィサイトへの転載は禁止です (ニククエW ff4e-PFoM)
垢版 |
2021/12/29(水) 21:46:39.71ID:reBt4IUT0NIKU
>>82
むしろ訴訟大国のアメリカ企業なんて日本以上に謝ったら負けだぞ
本社から怒られるだろ
0608番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 0b95-A7QV)
垢版 |
2021/12/29(水) 21:51:31.05ID:eFoju5OS0NIKU
>>571
バックアッププログラムがシェルで描かれてるのがそもそもおかしい
Findコマンドで差分バックアップなんて俺が3秒で考えつくレベル
0609番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 8936-fN3u)
垢版 |
2021/12/29(水) 21:53:15.39ID:Mk5niN9i0NIKU
HPは損害賠償請求されちゃうの?
0610番組の途中ですがアフィサイトへの転載は禁止です (ニククエ 3f0d-p1N6)
垢版 |
2021/12/29(水) 21:53:52.91ID:Zy9rAV5d0NIKU
Linuxなんだろ?
LinuxはGUI操作じゃなくてコマンド操作だからヒューマンエラーが多くなるよな
0613番組の途中ですがアフィサイトへの転載は禁止です (ニククエW abc6-nhG/)
垢版 |
2021/12/29(水) 22:04:55.58ID:RVlKWJYA0NIKU
>>420
pathの中に変数があって未定義ならエラー吐く印象しかないけど
bashってそのまま実行するのか
0615番組の途中ですがアフィサイトへの転載は禁止です (ニククエW 0daf-958h)
垢版 |
2021/12/29(水) 23:14:11.23ID:/JH51ZOK0NIKU
プログラムのプロじゃなくてもbash上のシエルスクリプト動作中にスクリプト走らせるとかやばいのわかるわ
しかも兄弟のスパコン物凄い演算速度でしょ
0616番組の途中ですがアフィサイトへの転載は禁止です (ニククエ MM97-jWCF)
垢版 |
2021/12/29(水) 23:20:09.96ID:1xVLiaOXMNIKU
>>603
消えたサイズが77TBってだけで、ディスク容量は24PB
0619番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW abc6-nhG/)
垢版 |
2021/12/30(木) 00:40:51.94ID:jN7Ds1yi0
いずれにしてもまともな単体テストやってないよね
変数に値がなかったり、存在しないパスを渡したり
大文字のみ、小文字のみのパスを渡したりとか
0620番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ c34d-nHKY)
垢版 |
2021/12/30(木) 01:16:22.14ID:YzaKvl070
何かしらの思惑によって起きたんでしょ?コレ。
0621番組の途中ですがアフィサイトへの転載は禁止です (テテンテンテン MM97-jWCF)
垢版 |
2021/12/30(木) 01:32:25.39ID:mA2UYcWYM
>>619
頭悪そう。そういう問題じゃない。
0622番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 03af-425w)
垢版 |
2021/12/30(木) 01:34:39.59ID:LZ1QkB9S0
五日市にあるHP本社
0623番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW abc6-nhG/)
垢版 |
2021/12/30(木) 01:36:44.24ID:jN7Ds1yi0
>>621
じゃあこれはどういう問題で何をすれば未然に防げたか言葉で表現できる?

スパコンと言えども
同じ処理系でスケールダウンした環境用意できると思うけど
0624番組の途中ですがアフィサイトへの転載は禁止です (テテンテンテン MM97-jWCF)
垢版 |
2021/12/30(木) 01:38:44.61ID:EwcbOqLBM
>>623
報告書読んでないの?
0626番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 57fd-wnoO)
垢版 |
2021/12/30(木) 01:41:21.22ID:lzL7vXV50
>>600
言葉が足りなかったか
クラウド使ってても、オンプレの時と同様に仮想マシンに運用スクリプトを仕込んでれば当然起こりうる話だってこと
AWSだのAzureだのは仮想マシンにしなくてもサービスやらストレージは使えるし、ストレージのバックアップ機能も提供してるからそっちなら従来の運用手法にはならんでしょ、と言いたかった
0627番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW abc6-nhG/)
垢版 |
2021/12/30(木) 01:44:01.44ID:jN7Ds1yi0
>>624
もしかしてスクリプトレベルの改修なら
テストしないで納品するのが当たり前だと思ってるの?
0629番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 3f3a-PMAg)
垢版 |
2021/12/30(木) 03:41:02.56ID:h1itrxqy0
ファイルはmvしてから消す
これでかなり安全になる

元から言えば、大切なデータなら非定型なログ形式でのこしておこうというのが間違い
ちゃんと正規化してDBに放り込め
0633番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW c36d-U/7i)
垢版 |
2021/12/30(木) 04:15:45.42ID:w6IFmmAl0
これだから自称冗長性有りのクラウドサービスつこうててもバックアップだけはオンプレミスで保管すべきなんだよ
0635番組の途中ですがアフィサイトへの転載は禁止です (ブーイモ MMb3-zNXX)
垢版 |
2021/12/30(木) 04:41:37.75ID:lu1oHdeeM
>>66
これはひどいね
LispやSchemeの素養があれば再帰的に書けたはず
それにちゃんとシステムプログラミング用の言語でガッチリ作られたものじゃなくてただのシェルなんだな
まあシェルでもできるけどさぁHPくらいの会社ならちゃんとしたモノ作ってると思った
0638番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 0daf-v0xp)
垢版 |
2021/12/30(木) 07:49:30.82ID:6gtTjNRU0
DCなら普通は定期的にLTOでバックアップ取るよね
0639番組の途中ですがアフィサイトへの転載は禁止です (テテンテンテン MM97-jWCF)
垢版 |
2021/12/30(木) 07:52:55.27ID:VpIswZt/M
>>627
今回の事象はテストはパスするよ。
0641番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 9bad-qFGl)
垢版 |
2021/12/30(木) 08:01:36.06ID:UbYaS5km0
SSDはゴミだから論外として
HDDだけじゃなくて磁気テープも使って冗長化しておけば
こんなことにならなかっただろうに
0643番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW abc6-nhG/)
垢版 |
2021/12/30(木) 08:16:54.87ID:jN7Ds1yi0
>>639
報告書読んでないの?
0645番組の途中ですがアフィサイトへの転載は禁止です (スプッッ Sddb-PueI)
垢版 |
2021/12/30(木) 08:29:01.93ID:8DgoCR4Md
>>640
難しいな。問題のfindコマンドが実行されるよりも先に、新版リリースして上書きしないと、
テストしても再現しない。問題の箇所は、時刻ぴったりとかで始まるわけじゃないから。
「find-rmの始まる前に上書きしても大丈夫か、テストケースに加えよう」
って発想ができるなら、そもそもそんな手順にしないから
0646番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 53a2-ycmc)
垢版 |
2021/12/30(木) 08:50:43.76ID:j718TVEd0
スパコンって普通のPCじゃ出来ないようなシミュレーションなりでしか使わずデータは入ってない印象だがそうでも無いんだな
データ量的にファイルサーバーとしても兼ねてたのかね
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況