【悲報】京都大学のスーパーコンピューターのデータが77TB中28TB完全消失 [685821185]
■ このスレッドは過去ログ倉庫に格納されています
お知らせ
掲載日 内容
2021/12/28
スーパーコンピュータシステムのファイル消失のお詫び
http://www.iimc.kyoto-u.ac.jp/ja/services/comp/
スーパーコンピュータシステムのファイル消失のお詫び
2021年12月28日(火曜日)掲載
京都大学学術情報メディアセンター
センター長 岡部 寿男
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可) hpになすりつけてて草
トラブルを見越してない側の問題だろ 何保管してたか知らんがごめんで押し通そうとしてんのか? https://www.iimc.kyoto-u.ac.jp/services/comp/pdf/file_loss_insident_20211228.pdf
日本ヒューレット・パッカード合同会社
ファイル消失の原因
スーパーコンピュータシステムの納入会社である
日本ヒューレット・パッカード合同会社による
バックアッププログラムの機能改修において,
不用意なプログラムの修正とその適用手順に問題があったことで,
本来は不要になった過去のバックアップログファイルを削除する処理が,
/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として
誤動作しました. 77TB分のエロ動画を貯めてる人とかネット上には少なからずいそう 定期的にバックアップ失敗する事故起きるね
やり方に問題ありそう >>7
ファイルが消失したユーザ様への補償について
この度のファイル消失は 100% 弊社の責であると考えており、補償につきましては、ユーザ
様、並びに、貴学のご意向に沿うようにいたします。 HP側に問題があっても
運用側にカバーできる仕組みがあれば良かったね スパコンのデータなんて演算だけさせてるんだから放り込む前のデータは問題ないだろ ミラーリングはバックアップじゃないって何度言ったら分かるんだ >>11
test以下を削除した運営みたいなもんか すまん
でもHPが全部悪いんですぅ
これ言いたいだけでしょ? >今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
再発防止策は書かないゴミムーブ(´・ω・`) >>18
物理障害じゃなく論理障害だからRAIDは意味無いね 俺も昔バイトしてたときにデータ消しちゃったことあるなw >>6
>・消失ファイル数:約 3400万ファイル
やべえ数 hpに責任があるにせよ、他社の名前出して報告する企業ってイケてないわ そういやHPのSSDは稼働時間でデータ消失あったなw >>24
hp側の文書だよ
>>32
これから時間かけて再発防止策を検討して、その後しばらくは防止策としてクソ面倒な手順が増えるんだわ
地獄だぞ 調べたら2年前に不具合がニュースになってる
ファームウェアを更新しなかったんだね >>43
自業自得だろ
逮捕されないだけマシだわなw こんなん動確すりゃ一発で分かると思うがスパコンだと事情が違うのか? ヒューレッドパッカードが担当してたんか
日本企業は食い込めないの? ローカルのファイルは
いつか 必ず 消滅する
あれだけ言ってるのに何で分からないんだい? (ヽ´ん`)find / -mtime -365 | xargs rm -fっと
ポチッとな
って感じだったんかね🤔 >>46
数年かかる計算していて途中で止められなかったのかもね スクリプトの内容そのものじゃなくて更新の適用に問題があったのか 阪大はNECと組んでクラウド連動型とかベクトルSXやってるな 京大のスパコンって確か従量課金じゃなくて年間使い放題だから便利だった気がする 研究データとか値段つかんから補償なしじゃね?
研究データ消えて卒業できなかった学生を来年採用する
くらいしかできないのでは 富士通かNECにしとけばよかったのに
国立のくせに反日だからこうなる 何のためのバックアップなのか
システム更新時はバックアップストレージは交換して保管しろボケナス >>6
更新日が10日より前のファイル消してるから
(ヽ´ん`)find / -mtime +10 | xargs rm -fっとポチッとな
か >>32
再発防止策といえばチェックリスト作成
さらにダブルチェックでヨシ! どういうデータが失われたんだ?
京大なら最先端データが失われていそうだ 俺の担当したとこ余裕のペタ越えやったな
snapmirror初期転送で1ヶ月ぐらいかかったぞ >>11
ぞっとするやらかしだわ…明日は我が身とおもって気をつけよう… 間違って卒論消しちゃう系のでっかい版だな
一年かけた研究成果がおじゃんに バグでバックアップなのに元データ消しながらコピーしてたのかな? rmとかいう無慈悲なコマンドを知るとゴミ箱システムの偉大さが分かるよね えーでもさ、、バックアップって日付を変えて二本取らない? 京大のくせにバックアップも取ってないのかよ終わりだろこの国 震えたわ
消しちゃったというより日本hpが本当にやらかしましたって言ってるあたりあーほんとにやっちゃったんだなと
ファイル消して逃げたコピペって多分ガチだったんだな hpの仕事するような天才プログラマーもミスするんだね スパコン関連で一番インパクトあったのはコンパイラにバグがあって計算結果が全部間違ってた事が稼働数年後に発覚した京 178 : WBC監督(東京都):2008/09/14(日) 22:30:48.60 ID:mNrtA2B90
深夜のメンテナンス作業で眠くて眠くて、ユーザーの伝票明細テーブルを間違ってTRUNCATEした。
ROLLBACKも効かない。
あせってArcserve開いてテーブルを戻そうとする・・・ログウィンドウを見ると、
バックアップバッチは数ヶ月前から停止したままだった。
頭が真っ白になった。
IDCを出て深夜の自席に戻って、机の中の大事なものをかきあつめてかばんに詰めた。
社員証を課長の机の上に置き、会社を出て、アパートに戻る。
保険証、パスポート、前の年に死んだ愛犬の写真を持ち、始発にあわせて家を出る。
携帯が鳴り始める。何度も何度も何度も。空港につくころには着信が100回を超えた。
電池を抜き、俺は北海道行きの飛行機に乗った。
逃げるなら、なんとなく北、というイメージがあった。
それから3年無為な生活をし、ほとぼりが冷めたころ、北海道の小さな
ソフトウェア開発会社に就職した。
経験を買われて、すぐにプロマネになる。
そして、孫請けながら大きなプロジェクトに参加することになり、
キックオフミーティングのために東京へ。
発注元とともに汐留で会議に参加する。
・・・会議室には、俺が逃げ出した会社の部長と、課長がいた・・・
ふたりとも、会議のあいだずっと、顔を真っ赤にして俺を睨んでいた・・・
こみあげてくる胃痛と嘔吐感に耐え、会議が終わると同時に俺は会議室から逃げ出した・・・
それが、先週の金曜日のこと・・・死にたい・・・ こういう謝罪文で100%弊社の責であるって文言を初めて見た うわ…システムエラーじゃなくヒューマンエラーなのか…恐ろしい😰 甘いローテーション処理でそういうことはありそうやな >>11に詳細書いてあるけどシェルスクリプト動かしながら上書きとかやったんだな
hp側もそんなことやると思わんだろうがSEにOK出しちゃったのかな
3 ファイル消失が発生した原因
バックアップスクリプトには、find コマンドにより 10 日以上古いログファイルを削除する処
理が含まれています。スクリプトの機能改善と合わせて、find コマンドの削除処理に渡す変数名
を視認性・可読性を高めるため変更いたしましたが、この修正したスクリプトのリリース手順に
考慮不足がありました。
bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ
る副作用を認識できておらず、実行中のスクリプトが存在している状態でスクリプトの上書きに
よりリリースしてしまったことで、途中から修正したシェルスクリプトの再読み込みが発生し、
結果的に未定義の変数を含む find コマンドが実行されてしまいました。この結果、本来のログ
ディレクトリに保存されたファイルの削除をする処理ではなく、/LARGE0 のファイルを削除し
てしまいました。 >>82
本来は/LARGE0/${ログディレクトリ}を対象としようとしたけども変数を設定してなかったとか変数名を「ロリディレクトリ」などと間違えたとかでない?🤔
たまによくあるんよ😌 >>11
削除の処理って石橋を叩いて叩いて削岩機かまして爆弾落としてそれでも大丈夫って確認するもんやん
あかんやろ >>99
なんや、詳細書いてあったんか🤔
新人に作らせたんやろね 77TB中じゃなくて、ふっ飛ばしたのか77TBじゃねーか
さらにその内一部がバックアップからの復元も不可 相変わらずヤフコメでは中国のスパイガーとか勝手に妄想してヘイトを貯めてそう どうせ日本の顧客は訴えてこないから舐められたもんよ >>99
これってバッシュ特有なのかしら
そんなひどい挙動するとは知らんかった こんな間違いは人の手によるものだろ
機械はこんなことしない >>99
こんな優先度低いの年末まで待てばよかったのに
まあでも気づかんわ >>83
せっかくゴミ箱システムがあるのにShift+Deleteしてしまうケンモメンであった >>119
Lustreだし多分RHELじゃないかな まあこういうレンタル計算機は自前PCからプログラムとデータ送って何日も計算させるだけだから、元データがここにある訳ではない
失ったのは溜めた計算結果と時間だけやな
補償トークンでたらふく計算し直せ >>118
スクリプト全般そんな感じじゃなかった?
実行中に自分のスクリプトを書き換えて実行するのを見たときは感心したけど、デバッグ大変そうと思ったw 京都大学だからIPS細胞のデータじゃね?IPS細胞はありまーす 卒論データ吹っ飛んで人生設計狂う学生とかいるのかな >>9
中山先生は本格的に渡米するみたいだし
CIAが日本での研究データは消してそうだな >>135
スパコンはいろんなユーザに貸し出すから
普通の企業でもストレージ100TBとかざらにある 日本HPなんかクソもいいとこだろ
ここのノーパソ買ってマザーに初期不良ある引いてえらい目にあったわ わいもプログラムのバグで髪の毛10万本中3万本が消失したけど誰か修正してくれませんか スパコンっていつまでスパコンなんだろう
そろそろハイパーとかウルトラとか出て来ても
良いだろ 掃除のおばちゃん「やれやれ…またあたしのせいにされるんじゃないかと思ったわ」 >>117
rmは単にinodeへのリンク消すだけって言うしね🤔
lsofとか使えば戻せるんかも >>118
シェルスクリプトでは標準的だと思うよ
Windowsのバッチファイルでも同じを動作する
それを利用して実行中に自身を書き換える手法とかもある >>143
もうデータ歯抜けで手遅れだから
全部抜いて外付けに切り替えとけ >>99
へー
bashスクリプトは起動中でも変更が適用されてまうんか
そら恐ろしいな 京都大学藤井聡「スマホとかいらん。僕ガラケー使ってます」 >>123
>ファイル削除期間: 2021 年 12 月 14 日 17 時 32 分〜2021 年 12 月 16 日 12 時 43 分
てなってるから二日くらいずっと削除してたかもw >>29
一体いくらになるんだ?KMGTだから28の後に0が12個付けばいいのか?たかだか28兆円か… >>146
仮に掃除のおばちゃんがやらかしたのなら京大の責任になるわな >>147
分散ファイルシステムだからクソ面倒くさいというかムリ
メタデータと実データが別のディスクに保存されてるのを紐づけし直すとか >>118
パイプの後ろにwhile使ってループとかは気をつけた方がええね
パイプの後ろは別プロセスなんやから >>11
前のスクリプト実行したまま新しい同じスクリプト実行したのか? >>138
ありそうやな
バックドア仕込んでるってスノーデンにバラされてたしな >>99
ここに限らず起こりそうな話だな
まあ実行中の上書きリリースとか普通しないけど、実行タイミングが追いにくいスクリプトとかはけっこうありそうだし >>7
HPが即土下座したレベルのやらかし
京大に瑕疵はない >>165
客に提供するようなスクリプトなら
わし動いとるでPIDファイルを適当なテンプに作るわ
素人仕事だよこの件は いくらなんでもヤバ過ぎる
貴重な研究データを闇に葬るなよ 77TBぐらいならまるまるバックアップのバックアップとるのそんな大変じゃないだろうに >>7
まあ実際HPを選定した京大の責任もゼロじゃないしな >>149
DOSバッチはcallとかfor文の遅延環境変数展開とか、シェルスクリプト以上に困難を極めるから触りたくないんよ😢 これ割とメンゴメンゴで済むレベルじゃないんじゃないか? >>99
こっわ
Pythonみたいなスクリプト言語はホットリロードされないよな?
シェルスクリプトだけなのか? 公文書の改ざんや焼失などのジャップランドの国技を自動学習した結果自ら実行して見せたんだろう
ジャップとして誇らしいよ かまへんかまへん
昨日うちのラズパイもSDカード壊れてデータ飛んだし
シャーない切りかえていこ >>169
リリース手順に考慮不足があり、って書いてあるんだしさすがにその場で改修したわけじゃなく
別環境でテスト完了していざ更新適用って時に動作中のシェルスクリプトがあって上書きされちゃったって話でしょ でも正直なところ研究室でデータ消失って結構頻発してるよな
学生が結構やらかすから
多分これは偏差値にかかわらず起きてると思う >>184
でも本来二重起動防止はあっても良かったかもしれんね😌
IT土方やってると「このスクリプト並列に実行しても大丈夫なんすかね?」ってよく聞かれるもんだし スーコンのどのデータが飛んだんやろ学習とかに使うデータなら痛いな
学習した結果ならそう痛くはないだろうけど >>188
後者のほうが痛くね
数年単位の研究データ飛ぶやろ 昔フロッピーに入れた完成まじかの修士論文読めなくなって泣いてる人いた
コピー保存してなかった >>137
卒論なんか1ヶ月あれば余裕で作り直せるわい
参加賞みたいなもんだからな >>185
どんなに優秀な人間でも個人レベルなら絶対にミスをするし、研究室単位の端末なら不慮の事故も発生するからね
だから大学側が事故防止に務めないといけない >>2
コンピュータ初心者ならやりがちなミスだなw
ドンマイw >>11
国産の大事なスパコンに外資なんて加えるなよ
スノーデン見てないの? >>187
二重起動じゃなくてシェルスクリプトを実行したままファイル上書きしたから実行中のプロセスが新しいファイル読み込んでおかしな動作しちゃいましたって流れ
スクリプトを実行したままで更新適用できてしまったのが問題なのでそこをチェックするスクリプト作るんだろうね >>6
ああいやだ
関係者の気持ち想像しただけで胃の中の油が固まったような嫌な感覚が襲ってきた よく分かんねえけど
スパコンにおける77TBって我々で言うとどの程度の感覚なんだ
エロ動画一個分くらいか? ヒューレット・パッカードみたいな大手が何やってんのwww データは消えるものと捉えて
復旧手段を充実させないとな バックアップ取る時間の長い間にずっとスクリプトが動いてて
それに気付かず上書きしちゃったんだろう
新入社員なら仕方ないよ 京大のスパコンのストレージ容量は約19 PBなので消失した77TBはその0.4%ほど
データ復元不可な利用者は4グループということなので直接的な影響はそこまで大きくなさそう
しかし当該4グループはご愁傷さまだね
HPの補償額はどう算定するんだろ?
当該研究グループが投じた研究費と人件費とを倍返しにするぐらいかな? スパコンに絶対必要なデータを保管するなんてあり得ないから特に問題なさそう
使用料の割引きくらいしたればいい IT後進国の日本らしくてええやん
丁髷頭の時から何も進歩しない日本人 >>99
やべえ俺でもやらかしそうな内容だわ
かなり身近なんじゃないかこういうのは
rm -rfのやらかしもそうだけど知られるべき これ事前に知識が無いと回避難しいくせにそこまで遭遇するわけじゃないからかなり怖い >>218
寺バイトとか巫女バイトとか言葉は季節を感じるんよ😌 これ系のバグはよくあって
プロセスが動いてるのに気付かず二重起動させてバグるのに近い内容だわ
必ず終了させてから更新しような この話って安倍晋三がまた不起訴になった事とやっぱり繋がってる? >>221
そういや必ずpsでプロセスが動いていないか、動いていたら終了させるようにするとか慣れでしていたな
ps aux | grep プロセス名
で確認するとか
pgrep プロセス名 | xargs kill -9
で終了させるとかが簡単にできる対策か おれも大学でスパコン使ってるけど定期的にGitHubのプライベートリポジトリにバックアップ取ってる
てもユーザが情報系の研究者とかじゃないと自衛するのも限界があるよね > bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ
> る副作用を認識できておらず、
なんでこんな仕様なの?いかにも混乱の元じゃん >>17
どんだけ補償するかわからんとか
これやらかした奴は胃に穴が開くな >>219
不可逆的な処理を変数絡めて実行するとき、「この変数が入らなかった場合にこの処理はどう動くだろう?」という想定は大事だね
セキュアプログラミングの基本でもある
今回の場合、処理の対象を適切にフィルタしておけば被害は局限できた
find -mtime +10 -name 'backup_*.log' みたいに単純なglobパターンの指定でもないよりはずっとマシだから 日本の経済予測とかコロナの拡散予測データじゃないの? >>105
ほんこれ
pythonでダウンロードした中間ファイル削除するときですらヒヤヒヤするわ >>103
バックアップの管理もこいつの仕事だったんだろう >>105
シェルスクリプトとかでファイル削除する時はホワイトリストみたいなもん作っといた方がええかもね🤔 あのHPでさえバックアップ管理はシェル職人がやってるということに驚いた >>233
なるほどな
不可逆処理は気をつけているつもりだけど変数のパターンを色々想定するのも大事だな これを機に外資パソコンなんて使うほうが悪いという風潮ががが > 2 ファイルが消失したユーザ様への補償について
> この度のファイル消失は 100% 弊社の責であると考えており、補償につきましては、ユーザ
様、並びに、貴学のご意向に沿うようにいたします。
こういうのってどこまで吹っ掛けられるんだろう >>11
スーパーどうでもいいけどURLのインデントの綴り間違ってない? >>99
これは俺でもやらかしかねないわ…他山の石だな >>247
実験データが消えて留年確定した学生は学費と生涯年収一年分とか要求しても過当ではないよな
就職先決まっててデータ消えて卒業見込みが卒業出来なくなったとかの扱いどうするんだろう
不利益を被った学生一人当たり数千万は出すしかないように思うけどな >>236
わかる
この規模の顧客システムでfind使った再起的削除とか絶対書きたくない
PythonでもPerlでもいいから最低限安全に組める仕組みを使わせてくれってなる
でも大手ベンダーがアプライアンス製品として納めてくるものの中身とかって結構こんなもんだよな
糞みたいに質の低いコードで動けばいいみたいな代物
それがかれらの高いコスト競争力とやらの正体 >>225
ジャップ法人なら雇ってんのもジャップばっかじゃね? 何でたいした容量でもねえのに1/3以上も消失してんだ
責任もあいまいだし >>221
psしたタイミングではプロセスは居なかったのに
直後にタイマー実行で起動することになってたプロセスが居て起動してしまってたとかありそう
システムの仕様を把握してないと地雷踏むわ cmdもそうだけど行ごとに読み込んでファイルはハンドルとAPI内部のseek位置だけみたいな作りなんだろうな
最初に開いたときに全部読み込めばいいんだけどシェルなんかはこの手の珍妙な動作に依存してるコードがごまんとありそう >>99
昔同じような処理書いたことあるけど、スクリプトでの削除処理は万が一の事故を想定して、かなり判定入れたけどなぁ
もちろん変数が空で上位ディレクトリが削除対象になった場合にエラーにする処理も入れた >>54
クラウドもどこかのローカルなんじゃないのかと最近思うようになった 怖いな
動作中にシェルスクリプトリリースすんなよとは思うが
自分も意図せずやりそうで怖い 処理の不可逆性やそれを再帰実行することの怖さって、みんながみんな人から教えてもらえるわけではないからね 空変数でやらかすのはシェルスクリプトあるあるだなw 盗撮犯が溜め込んでた動画1000TB検挙みたいなのがあったけど
28TBぐらいなあにまだまだ >>162
前のスクリプトが走ったまま前のスクリプトのファイル自身を外から上書きで書き換えて、
最悪な位置からスクリプトが再開されて
見事に削除コマンドが発動したってこと。
この挙動、俺は便利に使ってるが、
いつか事故をやらかしそうだわ
windowsのバッチで長い処理をさせてるとき、
後付けで文末へshutdown -s -t 0 と書いて
上書き保存すれば、処理後にPCを終了できる。
これの最悪な事故が今回のケースだな てかどっかでスナップショット取ってないのか
バックアップなら性能的にも問題なさそうだけど容量がデカ過ぎるのか >>258 バックアップ関連のスクリプトに人的不具合
詳細は…これを簡易に解説する人が居たら逆に危険なレベルなのでやめる >>99
使い捨てのシェル芸で草
フィールドプログラマブルだろwww Linuxとかは何らかのプロセスによりファイルアクセスされてる場合に
ファイルに削除や新規作成が走っても上記のプロセスは同じものをアクセスできる保証があるけど
それ自体を書き換えるとかお行儀の良くないことは保証してくれないからね なんで復元できないの?復元できないデータが36%って多すぎんだろ >>251
インシデント(事故)やで
インデント(字下げ)じゃない bash -i <(cat a.sh)
これで良くね? DBに入れてたなら復元の可能性もあったろうが、
ディレクトリにファイル形式で置いてあったものを消したんだろうな 100%消失ではなく36%にとどまったのは、
誰かが異常に気づいてkillしたのだろうか。 論文とか研究データが消えてたらノーベル賞取り損なうかも知れないな
かわいそう >>278>>281
シが抜けたんだと思う
incidentだから>>251の言う通りtypoよ 現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
どんなに悪くともシェルでは無くなるはずだよな 実行中に読み込み直す処理ってどうなるの
例えば、5行目まで実行して読み込み直す処理が走ったら
前5行は古いスクリプトの内容で、6行目以降は新しいスクリプトの内容が実行されるとか? バックアップについては>>109の通りでファイルシステム1つ分全部吹っ飛ばした中でバックアップ取れてなかった分が消失したという話
バックアップ用のプログラムを実行中の事故ということなのでちょうどこれから取ろうとしてたタイミングだったんでしょうな 俺の総HDDより容量少ないじゃん、バックアップくらいとっとけよ。個人じゃキツいけどw ログファイル消したいだけなら名前決め打ちで消せんのかい? 紙とハンコが最強だってことがまた証明されてしまった この書き方だと、悪いのはヒューレット・パッカードで俺は悪くありません何だけど
真実はどこに? linuxのファイルシステムって、
うっかり削除した直後でさえも
復活できない事例が多いよね。
FAT NTFSなら、ほぼ全部復活できるのに。
今回の事故機のファイルシステムは不明だけど、
直近に削除した空き領域を、しばらく他の用途で使わせないとかの配慮はないものなの? https://okwave.jp/amp/qa/q3573184.html
こういう事だな
初めて知ったわ
旧スクリプト
dir1=xxxx
rm -rf /LARGE0/${dir1}
新スクリプト
dir=xxxx
rm -rf /LARGE0/${dir}
実行中のファイル上書きにより実行されたスクリプト
dir1=xxxx
#ここで新ファイルに上書き
rm -rf /LARGE0/${dir}
#変数が空だから /LARGE0が全削除された >>299
HPが悪い
つか本番環境でコード修正ってどういう手順踏んでんだよアホなのか >>312
>>99は読んだ?
ステージング環境だと発生しにくい障害ではあるよ バックアップしないアホなんか死んで良いんじゃないの?
仮にも理系ならば
文系ならまぁ、アホだねって済むけどさ >>309
Lustreっていう分散ファイルシステムだよ
Linuxでもローカルファイルシステムなら何とかサルベージできるんじゃないかと思うけど
こっちだとデータ自体はまだ残っててもどこにどのファイルのデータがあるかもうわからん状態だと思う >>12
一期一会だからそれはないわ
よぽど気に入った動画は保存するけど この時期卒論修論博論でデータ喪失して絶望してる学生いそう スーパーコンピュータとかいっても
ケンモメンのAVコレクション数十人分くらいのデータ量しかないんだな >>24
文盲かお前
下に貴学って付いてるから主語はhpだろ HPじゃなくて世界に誇る信頼の日本メーカー様製品を使っていればな(笑) LARGE扱いなのに77TBなんか
LTO8で週次バックアップしても良いくらいの容量だな >>99
こんな挙動するの初めて知った
修論絶望君が出てきてたら可哀想 スクリプト組む複雑なものじゃなくても
#./rm -fr を#/rm -fr にしただけで大惨事な世界だもんな
怖くてやってられねぇわ
いつまでこんなシェル使い続けてんだっていう やらかしは仕方ないとしてバックアップはどうしたのよ 無能wwwwwwwwwwwwwwwwwwwwwwwww
これだから日本人はだめなんだよwwwwwwwwwwwwwwwwwwwwwwwwwwww まちがった
#rm -rf ./* →#rm -rf /*
こんな感じじゃないと通らないかw
ちょっと使わないとすぐ忘れてるな
findなんてexecとかオプションが多いから一見しても分からないよな
bashの挙動を考慮しないといけないとなると俺にはチンプンカンプンだ >>99
こえー
普通プロセスがロックするもんじゃないのか
自分自身の書き換え許すスクリプトとか恐ろしいな
UNIXがエンジニアの玩具だった時代の名残だよなこういうの >>334
近年の環境ではそれは抑止されることが多い
OSやディストリビューション依存だけど だからどんなことが起こっても良いように自分でいくつもバックアップ取っておく必要がある >>335
プロセスがロックしてもアクセスしてないときに書き換えたら意味なくね
実行中ずっとロックするならこの仕様の意味ないし >>340
まーた外国人のせいにしようとしてる
そんなんだから衰退したんだぞ!😠 一旦スクリプトを消してから新スクリプトを置けばいいのかな 本番環境でやらかした話に投稿できるじゃん良かったね 消失したということはそれはモリカケに関する資料ということだ
これがアベジューシーの猫な ジャップの国は都合の悪いデータはなぜか消えてしまう不思議 >>316
この規模のストレージとして有名みたいね
生データを渡すわけにもいかんし、
データは出そうと思えば出せるけど
所有者不明だから渡せない状況か。
怖すぎ >>311
bash使ってなかったからわかないけど
find -exec rm 実行中に書き変わったら
読み込みのタイミングで消そうとしてたファイル削除するのやめて
変数への代入(スクリプトの最初?)からやり始めるの?
それともスクリプト内で読み込んでた子スクリプトが書き変わったってだけ? >>289
そうそうすまんありがとう
insident->incidentやろって事を言いたかった
指摘をタイポするとか締まらねえ >>352
数日分じゃないぞ
ファイル削除期間てのはファイル削除のスクリプトが走ってた期間 自社サーバーなんて置かずAWS使ってアメリカが情報見れるようにしないからこうなる グーグルとかアマゾンとかの鯖でこういうの起こらないのかね
ニュースになってないだけか 定期メンテ無いのかな
稼働中にリリースなんてしたくない
バックアップ処理をいじってリリースしたら、リリース後初回バックアップの確認をするはず
稼働中だと確認しづらい 原油なんかより情報が価値を生む時代なのに日本は遅れているな >>99
バックアップ処理中に、バックアップ処理をいじるなど、ありえない
バックアップのスケジュールを把握していなくても、まずバックアップ処理を止めてからいじるよ、普通は
バックアップに限らず、止めてからリリースするのでなければ、危なくて怖くて手が震えてエンターをパシーンと出来ないはず 8テラのハードディスク10台と考えるとしょぼいな
センチュリーのケースに収まるだろ 77TB程度のサーバーなら、削除系のスクリプト流す前にフルバックアップとれよ 消えない為のバックアップなのに
バックアップで消してどうするんだよ
まずコピーしてから元のを消すべきだろ
どういうバックアップしてるんだ 京大は事業してるわけじゃないから賠償金少なそうだな >>57
入札も考えものだね
公平なように見えて現在の技術力を度外視だもの 似たようなミスしたことあるわ
検証機でだけど
普通ならそこで止まるからこんなんありえん bashの仕様でscript実行中はscriptファイルを都度読み込み実行していた
しかし、その仕様を正しく理解してなかった人が実行途中でscriptファイルを更新をした
結果として最初の方で定義したログディレクトリの変数が、読み込まれずにカレントディレクトリ/LARGE0で、実行してしまったということか 山中先生が密かに保存してたエロファイルを消去したんだぞ >>92
自業自得じゃん
その業界で生きていくつもりならきちんとケジメは取らないといけない ワロタ
休み明けにお年玉ならぬ落とし穴かよ
単位取れん奴も出てくるだろうに >>369
>>その仕様を正しく理解してなかった人が実行途中でscriptファイルを更新をした
仕様を理解していなくても、リリースする対象の処理を止める、止められないときはリリースしない
あたりまえのことをやれば、その仕様を知らなくても問題なかった
bashの全てを知っている神様でも、止めてからリリースするはず 一旦マークして時間差で消すようにしておけばいいのに
いきなりrmすんなよ >>99
CS系博士2年でインフラエンジニア四年やってるけどこんなん知らんかったぞ! 年末年始の休み利用して銀行や企業もシステム更新とかするから気を付けろよ ぼくインフラエンジニア、この仕様を知らなかった
バックアップ担当はなりたくねぇよやっぱ
バックアップジョブが止まっている話もよく聞くし _/ ̄ ̄\
/ ( \
/ / ̄\ ヽ スクリプトだ?
/ / )ノ\ |
| / ⌒\ /⌒ ヽ | ちまちまやってんじゃねえ!
(Y (・ ヽ / ・) V)
( / )| ギュイイイイン
人`ー (__ノ ー´ /ノ ⌒
\ ----´ / ( ̄ ̄ ̄ ̄(((∽∽∽
ギュイイイイン _,,,, ノ\____/ヽ ,l^レっ) ̄ ‐-‐
⌒ . ノ.:!:.:.:.:`ゞ-ゞ<´....:!...\ / 目 -
∽∽∽))) ̄ ̄ ̄ ̄)/.:.:/:.:.:.:.:.:| }-{/|:.:.:.:.:.:丶:.:\/ゝ.ノ
‐-‐  ̄``゙E_と_」.:/ !.:.:.:.:.:.:.!  ̄ !.:.:.:.:.:.:.!丶l/;;;;;/
目 |.:.:.:.:.:./_ : _丶.:.:.:.:.:.|
\/.:.::..:.:.:...::.:.\/
/.:.:.:.:.:.:.「^Y.:.:.:.:.:.:|
{.:.:.:.:.:.:.:.| ,!.:.:.:.:.:.:|
\.:.:.:.:.:.V.:.:.:.:.:.:.:|
\.:.:.::|.:.:.:.:.:.:.:!
> 'ゝ─‐イ、
`ー' ``''ー‐' 作業のタイミングが違えばセーフだったっぽいな
最後のお祈りが足りなかったようだ
運が悪いとしか言いようがない HP「まあああああ!!落としちゃった!LARGE0ディレクトリ全部落としちゃった!」
京大「どうかしましたか?」
HP「はい!本番環境の実行中にファイルを書き換えてしまったのですが!」 ワロタ
京都土人にスパコンの管理なんて無理w
どうせ機械にぶぶ漬けぶっかけたんだろ すんげー冷や汗でたろうな
データの中身によっては大損害だわ これだからbashやbatのスクリプトは信用できないんだよなぁ
未定義の変数を参照して無警告で削除が実行されるとか怖過ぎだろ
デフォルトでエラーで止まるようにするべきじゃないか
他山の石だわ 変数を分かりやすくするためだけに変更したってマジなのですか?
その行動本当にする意味ありましたか? バックアップってファイルをこぴーするだけだろ?
どこに失敗する要素が? >>99
windowsのbatも実行中に更新できる
意図した動きにはならないけど 掃除のおばちゃん「ふふ、書き換えたことに気付いていないようね」 >>99
怖すぎて吐きそう
来年は独立するぞ〜とか思ってたけどこんな挙動する知識もなかったぼく バックアップを取るのとバックアップを取らないのとどっちがデータの生存率高いか調べた論文ない? この程度も容量のバックアップもちゃんと取れんのかいか
レベル低すぎるだろ これはハゲが育毛剤を付けようとしたら中身が脱毛剤で毛がごっそり無くなったみたいな話なん? 普段からバックアップしてるぽいけど
バックアップも消したような記述は見当たらないけど
なんかポンコツだな >>99
git管理してるシェルスクリプトを稼働させてる状態でpullしたら稼働中のプロセス(?)が新しいシェルスクリプトを読み込むことになる? >>99
バックグラウンドで何日も動き続けるシェルスクリプトなんて
ふつうにあるからな。ハッシュ値とか、実行パーミッション付いてるかとかは気にするけど、
今も裏で動いてるかどうかなんて、気にしたことないわ
あとfindって(笑)スクリプト作ったのはhpなのか京大職員なのか知らんけど、スパコンなのにお気軽だな 何言ってるかさっぱりわからんけどみんなちゃんと仕事してるんやな🤗 プロセス終了しないで直接実行中のプロセスを上書きしたってこと?
なんかとんでもなく恐ろしいスクリプトだな 過去のバックアップログ消してからバックアップ開始なのか
これだと過去のバックアップログが残らなくない? 大学で77テラとか少ないな
ゲーム機でも1テラで足りないのに >>415
おそらくバックアップの前段で、保管期限の切れた古いファイルを探して、削除する処理があるんだろ
だからfindコマンド 自己書き換えか
意図してなかったんだろうな
かわいそう >>11
外国の会社に日本の研究データ削除されててワロタww 俺の通院している総合病院も今年患者のデータを盛大にぶっ飛ばしやがった
お陰で11月の俺の検査も「初診になります」
アホか!紹介もらった個人病院の先生が申し訳無さそうだろ
謝んのはおまえらだ、アホ💢 喜べ。嫌儲パソコン大先生が「年明けには復旧する」と仰っているぞ。>>6は気にしなくていいようだ
【乞食速報】スパコン77TBデータを消した会社「100% 弊社の責です。補償はユーザー様のご意向に沿います」 [356012471]
https://greta.5ch.net/test/read.cgi/poverty/1640723185/
106 番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 8fd2-bp1O)[sage] 2021/12/29(水) 07:04:24.06 ID:wbjBMa+B0
>>97
京大くらいなら5段階くらいのバックアップはあるっしょ
変人揃ってるしそのくらいはしてないと不安で気が狂ってるはず
年明けには解決しとるわな >>99
シェルスクリプトでバックアップログ削除か
スパコンつってもその辺の中小企業みたいな泥臭い運用してんだなw バックアップする前にバックアップしなかった京大も悪いんじゃない? 各々個人でバックアップとれるだけとってるやろ流石に 学生の時のOSはWindowsMEだったけど、卒論が3回消えたわ
しまいには研究室中のPCにバックアップ取ってた これってこのスクリプトが誤って単体で実行されたら全削除を実行するってことやろ?
いくら組織内でしか使われないシェルスクリプトだっても外部の処理に依存する変数の検査をしないってのは怠慢だったな ヒューレッドパッカードって働くのはどうかな、やっぱダメかな バックアップ前にログ削除する処理しててその処理中にファイル書き換えてディレクトリ内全部削除してバックアップ開始したって事?
すまんジャップいいっすか?w bashの挙動で少し同情しかけたけど
よく考えたら、rm -rf / が実行される可能性のあるスクリプトを組むと言う時点で素人レベルのクソだった この手の詫び文章では見たことない
「この度のファイル消失は 100% 弊社の責であると考えており、補償につきましては、ユーザ
様、並びに、貴学のご意向に沿うようにいたします。」
どうしようもない全面降伏。つまり青天井賠償を受けると書いてる。
牛肉偽装レベルだぞ ファイル削除機能ってずっと改善され無いよな
削除を実行したらプロセスとファイルの場所を記録した保管扱いにして、指定した期間を過ぎたら完全削除で良いのにね >>435
FATをいじってるだけで実データ領域は手付かずだよ。DOSの頃から。 雑なsh流した結果どうにか致命傷で済んだぜ……って誰でもあると思うけど
それでもプロがここまで雑なもの書いて金取ってるという事に驚いた 3400万のファイルをサルベージしても、ファイル名と拡張子がわからないと整理しようがないよな? 研究データで22TBって相当な量だろ
ごめんで済まないんじゃ?復旧できないだろ >>443
2度と取れない実験データとかもあるだろうね
いまごろ必死に復元処理している所だろう >>445
計算機使った研究で二度と取れない実験データってあんまり価値ないね >>437
NTFSって知ってる?
S3って知ってる? 大学生のころスパコンのデータをカセットテープにバックアップする仕事してたわ >>447
その分野の研究者じゃないから詳細はわからんけど
加速器実験とか天体観測とかだとめちゃくちゃ大容量のデータが発生するらしいから
スパコンのストレージに投げ込んで検証処理進めてオリジナルデータは廃棄済というシチュエーションはありそう
別にスパコンだからってぜんぶ数値シミュレーションだけに使ってるわけじゃないだろう >>449
昔はファイル情報保存領域を指してFATって言ってたんだよ
それにしたってなんでS3なんだ
パソコンの大先生かよ >>451
いくら何でも生データバックアップするだろw
スパコンのストレージはバックアップなしなんだろ? >>453
NTFSのファイル情報保存領域はMFTや >>454
まあ普通は生データは別途保管しているだろうけどな普通ならね
でも77Tも消えたんじゃ
そこにしか保存されていないオリジナルデータも少なからず存在していたと思うわ ヒューレットパッカードみたいなマイナーなところに
任せるから。。。 >>99
>bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます
rm -rfしただけかと思ったらこんな落とし穴あったのかよ…
担当者の気持ちを想像しただけで吐くわ >>456
偉そうなこと言うて何の説明もできんバカ >>461
めんどくっさ!
https://e-words.jp/w/FAT.html
> 当初はストレージ内でファイルやディレクトリについての情報を記録する特殊なシステム領域の名称だったが、次第にこれを利用して構築されるFATファイルシステムのことを略して単にFATと呼ぶようになった。 あー宿題消えたわー
もう9割9部完成してたのになー >>463
ほんまそれ
ノーベル賞確実のデータあったのに〜呆 >>462
MFTのことをFATなんて読んでた時代は無い >>99
つまり実行中のプログラムにパッチ適用したら
予期しない動作が発生したってことね
普通は実行中のプログラムは停止するものだけど
必ずしもその限りでは無いからな >>393
インタプリタで動作するので、未定義の変数名がチェック出来ない。
未定義はヌル文字になる 卒論修論用のデータ消えた学生どうすんだろ?
夏ならともかく今がピークじゃないか? シェルスクリプト使うのもうやめようよ
もはや百害あって一利なしだろ >>471
使ってたデータはともかく
スパコン上に色々インストールしてやっと整えた利用環境がぶっ壊れたら
復旧させるのにめちゃくちゃ時間掛かる場合もあるだろうな
なんなら歴代の先輩から受け継いできた環境をそのまま使ってただけで構築方法がドキュメント化されてなかったりすると詰みだわw >>475
それもあるな
大事だったのはデータだけじゃない
かわいそうになあ >>473
ストレージの通信速度240GB/sってバケモンかよ
この間うちで導入したストレージで20GB/sやぞ こういう事故があるからシェルの呪文みたいな記述はいじりたくないわ
.一つのある無しで意味が全然違うとかあるし なんか心臓が痛くなるスレだから
ログ消して見なかったことにするわ😨 クラウドサービスなら補償なんて一切無くて、精々が月額料金返すだけだが、HPは青天井で補償か >>5
複数に分割してるから。
間違っても一部しか消えない仕様。 >>483
24PBのストレージが直接マウントされてるから、rootで消すと全部消えるよ。 >>475
大学のコンピュータは一番始末が負えん。
学生が勝手にカスタマイズするから。
口伝えで先輩から使い方教わるとか、魔法に近い。 >>486
いや、実際にそうなんだって。
dfで見ても24PB見えるもん。 >>192
Wordのファイルバグる人いたわ
画像を沢山貼るとすぐ壊れる >>492
それも含めてスパコンの管理をhpに委託してるんでしょ?
それにしても管理がバカ過ぎるけど。。 細かい仕様については把握してなくても仕方ないけど
少なくともスケジュール起動のスクリプトのステータスを確認せずにリリースしちゃったのが根本原因で、対策すべき点もそこでしょ >>495
直接的には、実行プロセスがopen中のスクリプトファイルを変更してしまったのが悪い
mv foo.sh foo.sh.org && cp foo.sh.org foo.sh && vi foo.sh ってするだけでも防げてたねって話
要はinode変えてから編集すればよかった >>410
あーgit管理ならあるかもね
git push origin
ターン
でスクリプト更新&死亡とは連想しづらい >>281
インシデントだとしてもincidentだろ >>202
うわあああああああああああああああああああああ!!!!!!!あ゛あ゛あ゛あ゛あ゛あ゛あ゛あ゛!!!!!!! >>499
本番デプロイ自動化レベルのCI/CD組んでたらこんなお粗末運用じゃないと信じたい
pullとかcloneしたファイルを本番ファイルにcpとかrsyncしてたらinode維持されちゃうかもだが、mvで上書きならinodeは新規ファイル側になるので今回みたいな惨事にはならなさそう >>497
一瞬mvするだけで防げるの?cpした奴は見に来ないの? みんなこっそりローカルとか私物パソコンにコピーしてましたって落ちはないのか >>505
握ってるのはinode番号って事ね
OK理解したありがとう >>495
いや根本はログ削除スクリプトのバリデーション不足だよ
rm -rf / (かどうかは知らんけど)が実行される可能性のあるスクリプトをリリースしたのが諸悪の根源 これ漫画やん
審査中論文とか成績通知表が吹っ飛んだ
自由だ! スーパーコンピュータって言っても大した容量じゃないんだな
うちの数倍程度だ 作業中にやらかしたんだな
まぁHPが自社社員出す訳ないしその辺の会社に適当に任せるからそうなるわな 遅まきながら>>99見て胃が痛くなった
SEから別の仕事に移ってもう10年以上経つのに 引数パスで環境変数を使わずハードコーティングしとけば防げた
あんまり聞いたことないhow toだな スクリプトを組むうえで念を入れておくべきことがあったのはその通りだけど
スクリプトの途中で 古い → 新しい に切り替わって実行された時の
罠はひとつではない 全処理がひとつのスクリプトで完結せずに、複数のスクリプトが流れる処理は
それら複数のスクリプトを同時にリリースしなければならないことがある
旧のスクリプトで処理実行中に、新のスクリプトを複数リリースしたら、
なにをどう確認して正常にリリースできたとするのか、判定すら難しい 復元すりゃええんちゃうの?
こんなもんで完全消失できるんだったらドリルでHDD破壊する必要ないじゃん >>99の説明で事情が理解できる嫌儲民おおすぎだろ >>251
外資系の謝罪文として間違うわけないスペルミス
ってことは作成者はHPの人じゃなくね 英語できなさすぎる 優秀かつ注意深いエンジニアは金融担当。
大学のスパコンなんて、一番トラブっても怒られないシステムなので無能の巣窟。 >>518
削除対象のディレクトリとか書いた設定ファイル持たせとけばええだけかもしれんけどもね🤔
でも
(本番環境)「もしかして」
(開発環境)「私たち…」
(本番環境&開発環境)「入れ替わってる〜?!」
もんだいが発生するやろけども >>473
買収したばかりのCrayの製品だから恐らくCrayのエンジニアか完全に下請けかキツいな >>521
分散ファイルシステムの復旧とか保証した方が安いレベルの費用の上そもそも復元は不可能だろう まぁスパコンのストレージなんて計算用のデータとか計算結果がアウトプットされたファイルしか入ってないやろから
ずっと置きっぱなしにしてるってな類のもんじゃないだろうけども
計算中だったデータがパーになるのはきついやろなぁ >>99
だれか情強モメンの方、プログラミング知識ゼロの僕に分かりやすくこの状況を教えて 一気に削除はこわいよなー
できるだけ細かく、遅く削除を心がけたい >>531
ちゃんと上の方で消す場所書いてたのに
実行中にスクリプト入れ替えたら書いてた消す場所かちゃんと適用されずに全部消えた 実行後に変更が適用されないように、
スクリプトを外部に記述して読み込んだ文字列を
evalで実行するてノウハウもあんのね >>473
Broadwellが実際に動くという文字を始めてみた気がする これ一次請け、下請け関係なくHPのプロパーでLinux触ってるやつでも同じミスするだろ s3に置いときゃ良かったのに
クソ安いから過去差分消すとか言う概念なくなんのよ >>542
ただしスパコンだからなあ。インターネットのオブジェクトストレージからファイルごとダウソして計算開始とか、
F-1にトレーラー引っ張らせるようなもんだからなあ >>542
S3って240GB/sでアクセスできるの? 修士は失敗しようが何しようが卒業出来るだろうけど
博士とかどうすんだろうな >>545
システムは海外製だよ
だから今海外で大問題になっている ■ このスレッドは過去ログ倉庫に格納されています