【乞食速報】スパコン77TBデータを消した会社「100% 弊社の責です。補償はユーザー様のご意向に沿います」 [356012471]
■ このスレッドは過去ログ倉庫に格納されています
https://www.iimc.kyoto-u.ac.jp/services/comp/pdf/file_loss_insident_20211228.pdf
2 ファイルが消失したユーザ様への補償について
この度のファイル消失は 100% 弊社の責であると考えており、補償につきましては、ユーザ 様、並びに、貴学のご意向に沿うようにいたします。
スーパーコンピュータシステムのファイル消失のお詫び
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します. 京大「だって弁償するのウチやなくて日本ヒューレット・パッカードやし」 偉いじゃん。外資じゃなかったらシタウケガーで終わる ・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
読んだらまた設定ミスの自動削除かよ
なんでサブ環境でテストしないの?
ジャップ終わりすぎだろ まずジャップ企業だったらファイル消失なんか認めなくてこの度の不適切な事案に付きまして〜だからな >>19
お前は5chに書き込むときに毎回書き込みテストしてからレスしてんのか? スクリプト作った担当者の武勇伝に3400万ファイル消したったwが入るのか
てかプログラムの不具合というより考慮漏れのスクリプトを本番環境に適用したら消えちったw
ぐらいにしか見えんな >>11
やらかしたのはヒューレット・パッカードの技師だから
外資系だから当然そうなるね。 100%って…普通は全てとか全責任とかだろ
推敲も中途半端になってるくらい焦ってたのが伝わるな… なんか文章がアホっぽいのは推敲する時間もなかったのか データ復旧業者呼ぶんじゃないかなぁ。1億くらいで全部データ引っ張り出せるんじゃね?上書きとかしていなければだけど これ貴重なエロ動画の補償額算定ってどうなるんだ?
恥ずかしいから泣き寝入りなんかな >>44
ぶっちゃけケツアナやマンコなんかで済むなら差し出す奴数百人単位でいるレベル
やらかした奴もう失踪してるな >>40
データを上書き更新した時にバックアップのバックアップに対してもその結果を反映させる必要がある
結局はバックアップを何重に採ってたとしても全部繋がってるから盛大にやらかしたらドミノ式に終わる テラバイトと言われても素人には規模感がわからないが、そんな甚大な被害なのか >>5
ミラーリングしかしてないってどういうことなの? これニュース性高いし年末年始のシステム更新なんかで押してる現場に
上から更に本番移行手順の確認やら処理フローの再チェック言い渡されて
開発部門と運用部門両方とも地獄になりそう >>25
いやいや
5ch書き込むノリで運営されちゃ困るやろ >>40
新人の頃に別のメディアに複数取れと教わったけど最近はそんな事してないところ多いな
良くあるパターンはストレージにクローン取って(RAIDのミラーではない)そのデータを非同期でバックアップするということをやってる 御愁傷様としか言い様が無いな
何人が異動させられるんだろ ミラーリングはバックアップにならないと20年以上前から言われているというのに。。 ミラーリングでは人的ミスは防げない
故障の対策だし このレベルですらRAIDかよ
なら言うほどほちんちんは高くなさそうだな
バックアップって言ってるけどただのゴミ箱だわ
100円くらいが相場やろな
あってないような虚空の代金にしては高すぎるか >>25
お前は誰かと何かを契約してレスしてんのか
笑わせんなよキチガイ池沼クズ頭障害者 スパコンのデータなんて学術研究目的のしかないでしょ
よかったね エロ動画コレクション復活させるために若い女性社員を寄越しなさい HPのストレージ、前も致命的なアレイコントローラのバグ出して無かったか? 句読点がカンマピリオドになってるのはまだ分かる
なんで半角なんだ?普通にパソコンで打ってたら全角になるだろ >>60
ただの仮置場だからな
損失が発生するとは考えにくい
重要データは多段式更新と複数メディアのバックアップが基本だし
相当頭が悪くて自民党を支持してるみたいな民度で
このサービスに命を全部預ける知的障害持ちという高すぎるハードルがある
いねえよなそんな生物 >>80
学生ならお前が悪いと馬鹿にされて終わりだけど、偉い先生なんかがやってたら厄介だな >bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ
>る副作用を認識できておらず、実行中のスクリプトが存在している状態でスクリプトの上書きに
>よりリリースしてしまったことで、途中から修正したシェルスクリプトの再読み込みが発生し、
>結果的に未定義の変数を含む find コマンドが実行されてしまいました。この結果、本来のログ
>ディレクトリに保存されたファイルの削除をする処理ではなく、/LARGE0 のファイルを削除し
>てしまいました。
bashってこんな仕様あったのか知らんかったわ データって価値基準が分かりにくいよな
思い出の写真も他人からすれば数MBの只のデータだし バックアップログだから大した価値ないけどやっちまったな 引き伸ばしてる間に資産移して破産手続きして逃げ切ると思う >>85
バックアップログを消そうとして消しちゃいけないファイルが消えた >>11
普通は裁判とかの時に会社が無理筋の責任被せられないようにするために辞めようとしても辞めさせないんだけど、
今回は100%の責任認めちゃってるからね >>60
普通のデータなら営業損害を請求されるけど
学術活動なら天井が見えてるから
こんな謝罪文出してるんじゃないの これHPに委託してる会社のシステム運用ルールに抵触しそう
HPに委託してていいのかって話にならんか? >>19
相対パスでrm -f ../みたいなことやらかすんかねぇ >>93
学術データなら場合によってはそれこそ青天井プライスレスの被害の可能性あるやん 嫌儲が誇るパソコン大先生の見解がこちら
【悲報】京都大学のスーパーコンピューターのデータが77TB中28TB完全消失 [685821185]
https://greta.5ch.net/test/read.cgi/poverty/1640706357/
7 番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW fbbe-6q3B)[] 2021/12/29(水) 00:47:45.18 ID:G2MuRIqY0
hpになすりつけてて草
トラブルを見越してない側の問題だろ >>94
正月にする話ではないな
ただこれバックアップ故障しました
スペアと交換しようとしたら違うプログラム動きましただろうから運用じゃ防げないだろ まじで全部hpが悪い >>96
せいぜい作成にかかった費用が限界じゃない普通に考えて >>94
別にええだろ
重要データは耐火金庫に入れるのが常識だしな
データが丸ごと消し飛んだくらいで焦る必要はない
部屋が消し飛んで金庫探すよりは簡単だろ? >>49
企業用は使用領域=費用だからなるべく抑えようとする
業種にもよるかもだけど77TBとかほんと気が遠くなるレベル ちょうど年末年始だからやらかした奴は実家帰ってそのままひきこもって退職だな
この失敗の具合だとまだ若いだろ >>97
京大くらいなら5段階くらいのバックアップはあるっしょ
変人揃ってるしそのくらいはしてないと不安で気が狂ってるはず
年明けには解決しとるわな >>30
> てかプログラムの不具合というより考慮漏れのスクリプトを本番環境に適用したら消えちったw
> ぐらいにしか見えんな
違う。
どこのUNIXやLinuxにも「普通」に「当たり前」に入ってるシェルやコマンドの挙動に
HPが想定してなかった(HPにとっての)大穴があって、それがハマってしまったミス。
考慮もれは、スクリプトではなく、bashの仕様(というか挙動)。 スパコンのデータだから大部分はシミュレーションの結果だろ
再計算させれば良いから補償額は知れてるけど
今年修論のヤツは年末年始返上で地獄だな https://www.iimc.kyoto-u.ac.jp/services/comp/pdf/file_loss_insident_20211228.pdf
に詳細書いてあるけどシェルスクリプト動かしながら上書きとかやったんだな
hp側もそんなことやると思わんだろうがSEにOK出しちゃったのかな
3 ファイル消失が発生した原因
バックアップスクリプトには、find コマンドにより 10 日以上古いログファイルを削除する処
理が含まれています。スクリプトの機能改善と合わせて、find コマンドの削除処理に渡す変数名
を視認性・可読性を高めるため変更いたしましたが、この修正したスクリプトのリリース手順に
考慮不足がありました。
bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ
る副作用を認識できておらず、実行中のスクリプトが存在している状態でスクリプトの上書きに
よりリリースしてしまったことで、途中から修正したシェルスクリプトの再読み込みが発生し、
結果的に未定義の変数を含む find コマンドが実行されてしまいました。この結果、本来のログ
ディレクトリに保存されたファイルの削除をする処理ではなく、/LARGE0 のファイルを削除し
てしまいました。 こんな小規模の仕事だと担当者は数人程度でお前らが言ってるような立派な運用システムは導入できないと思う
それにまともな技術者はもっとまともな仕事を担当しているだろうから最初から詰んでいたのだよ まあ相手大学だから即土下座したほうがいいわな 大手企業だと謝ってもどうにもならん >>111
その最初の実行中のスクリプトを動かしたのは京大側なんじゃないかと推理してみる
それならhpがやらかしてしまうのも理解できる >>106
大先生ご意見ありがとうございます‼︎
皆にそう伝えておきます(笑)
障害情報:【スパコン】ストレージのデータ消失について
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
>ファイル消失の影響範囲
>・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可) >>83
俺も
これだとテスト環境では気が付かんな >>83
この仕様理解してる人なんてそんなにいないだろ
俺も知らなかった > 結果的に未定義の変数を含む find コマンドが実行されてしまいました。
これは set -u していれば防げてた気がす >>121
むしろ基本動作だろ
ただこれを意識しなくてもスクリプト自体はかけちゃうからぐぐった作法てさらっとかいちゃうやつがはまりそう バックアップ処理と削除処理が1つのスクリプトにあんのか
わけても今回の件は防げないだろうどわけろよ >>125
cshはこうじゃなかった気がする
新しいシェルを使うごとに調べないな
そもそも実行中のスクリプトファイル修正しないけど >>19
どうすんだよこれ!!!って鬼詰めされてそう どんなデータが飛んだんだよ
京大のデータとかになると中身が気になるんだが >>130
スパコンに入ってるデータだから
シミュレーション条件(実行スクリプト)とパラメータファイルとシミュレーション結果
とかじゃない? >>128
まあその場で修正してえいは
ぶっこわしていい環境でしか普通の神経だとやれんな >>111
変数名を変更したい気持ちはわかるけど影響範囲が広いからリリース後は絶対にやらないよなあ またひとつかしこくなった
inodeの仕組みの問題なのね >>138
バックアップ領域へってもアラートとぶわけもなく実行したエンジニアは当日すやすやよな 実行中のスクリプト書き換えって
それはそれでアホじゃね
少なくとも本番環境じゃ絶対しないわ 「俺のロリポ画像1TB分なんとかしろ!」て嘘ついたら現物保証してくれんの? スーパーコンピュータの使い方は知らないが
まともなユーザーなら手元にデータぐらい残してるだろう
どんまい おい、ふざけんなよ。誠意をみせろ
俺の胃袋は覚えているぞ テープドライブとかでネットワークから隔離して世代管理ぐらいしてるかと思った 客が自分で作ったバッチのミスをなすりつけてきたことあるな
おんなじ感じの削除系で、環境変数使うやつ >>115
> その最初の実行中のスクリプトを動かしたのは京大側なんじゃないかと推理してみる
日常的に使うスクリプトだったんじゃねぇかな。
「引数でn日前とファイル名のプレフィックスやサフィックスを指定して、リストアップする」とかそういうやつ。 昔コンピューターの保守やってたけど某スーパーの給与データ飛びそうになってギリ復旧できた
あまりのプレッシャーで翌日マジで熱出て寝込んだっけ >>25
普通にやってるけど?
どうでもいいスレに適当に書いてテストするのは当たり前だろ馬鹿 >>137
> >>111
> 変数名を変更したい気持ちはわかるけど影響範囲が広いからリリース後は絶対にやらないよなあ
完全同意。
ちゃんと動いているものには
不用意に手を加えないのが鉄則。 >>144
> 人が死ぬわけじゃないからドンマイ
こんな事故を今の時期にやられると
卒業/修了までのスケジュールが破綻する学生が出るかもよ。 >>165
そこまでアホじゃないだろ
もしくは京大が定期バッチの設定をしたとか 俺もバックアップしようとしてHDD追加したときに間違って元HDDをフォーマットしたことがあるからな >>135
そもそもテスト環境で修正して検証してからリリースするだろ普通 下手な対応すると研究機関と契約できなくなるだろうし必死だろうな ■ このスレッドは過去ログ倉庫に格納されています