大富豪家2.0の日記
2004年11月02日
17:40
バックアップ技術
なんてものを研究してる人は聞いたことがないが、最近は「SPAM撃退技術」なんてものを真面目に研究している人も多いのだから、バックアップ技術も研究対象としてかまわないような気がする。
普通のファイルシステムではシステムファイルも個人的に大事なファイルもSPAMデータも区別がないので、普通のバックアップ手法を使うとどうでもよいファイルまでバックアップしてしまう。大事なメールとSPAMを区別するのと同様に、バックアップすべき大事なファイルとそうでないファイルは区別する方がなにかと便利だと思う。
うまいバックアップの方法というのはあるのだろうか?
コメント
2004年11月02日
17:45
大富豪家2.0
ある時点で同じように重要だったとしても、自分が撮ったデジカメデータのようなかけがえのないデータと、どこからかダウンロード可能なデータは重要度はかなり違うだろう。自分が作ったデータであっても、すでにWeb公開した資料だったらarchive.orgに残ってる可能性も高いからバックアップの重要性は低くなる。バックアップが必要かどうかを示すバックアップ重要度を厳密に計算するのは簡単ではないかもしれないが、とりあえず簡単に計算できて役にたつ指標が欲しいところである。
2004年11月02日
18:21
びすけっと
とりあえずは,何も考えないRAIDでいいのでは.4/5くらいの
用量で,かなりの安心が得られます.
前に,東大の松本さんがインターネットRAIDってのを未踏
で開発していたけど,あれはどうなったのかな.
ディスクを1/5だけ提供した人が5人集まればいいのかな.
暗号化とかもいれて,他人のは読めないようにするとか.
バックアップ重要度というのは面白そうだけど,RAIDの
効率よりも高くないといけないから.難しそう.
2004年11月02日
18:58
大富豪家2.0
\Program Files とか /usr/bin とか .Trash とか、バックアップしても仕方がないファイルを除きたいのですよね。検索対象の重要度としても使えるからやっぱりファイルの重要度は計算したいです。よくアクセスするから重要だというわけでもないのが難しいところですか。
2004年11月02日
19:00
おぎの
面白いです。重要なデータは冗長性を確保するために勝手にインターネット上で公開してくれたりするエージェントとか。
重要度の指標を計算する方法を思いついたらGoogleみたいに会社にできるのかも。SPAM撃退の研究やってる人はSPAMもバックアップしなきゃいけないかもなーとか。考えはじめると止まらん。
2004年11月02日
19:05
大富豪家2.0
確かにブロードバンド時代にバックアップサービスは嬉しいでしょうね。いっちょ会社作りますか。技術まだ無いんですが。
2004年11月02日
19:29
くるとん
SPAM研究家にとってはSPAMこそ一期一会の
大切なデータとしてバックアップしたいのでしょうね。(^_^;
個々のメールに対する「価値観」の自動化って
かなりパーソナライズがいりそうです…。
2004年11月02日
19:37
大富豪家2.0
自然とパーソナライズ化する手法があればいいのでしょうか。
* SPAMフォルダを不要とマークする
* 文書フォルダを重要とマークする
...
みたいなのを、なんらかの方法で自動化すればいいわけです。たとえば、そのフォルダを眺めながら「うーむ」とつぶやくと重要とマークされる。
2004年11月02日
20:03
「うーむ」て面白い(w
すいませんチャチャ入れで。
2004年11月02日
20:28
大富豪家2.0
ぐぐってみつからなければ重要だと判断するというのはどうでしょう。
つまらない解法だが役にたちそう...
2004年11月02日
20:35
大富豪家2.0
これは情報理論に似てますね。あるビットが完全に予測可能ならば情報量は0だが、そうでないと1になり、ある程度予測可能なら0.5とかになるわけですが、同様に、ある情報がGoogleから検索可能ならばファイルの重要度は0だが、そうでないと1とすることができるでしょう。半分検索可能というのがあるのかどうか不明ですが、似たようなものが検索されるのならばアナログ値をとることも可能でしょう。
こうやって、情報重要度理論というのが構築されるのであった...
2004年11月02日
20:54
ふくち
バックアップをとるだけでなく、回復手順も重要ですね。
とりあえずの仕事をこなすための回復であれば、最近アクセスした順に回復していけばある程度は対応できるだろう。で、残りのものはゆっくりと回復していく。
2004年11月02日
21:01
大富豪家2.0
重要度と緊急性は違うということですかね。
緊急性という意味では/usr/local/bin/も緊急に回復したいでしょうから、それを重点に考えるバックアップも必要かもしれませんね。長い目で見ると重要度の方が効いてくると思いますが。
2004年11月02日
21:31
まえG
バックアップじゃないですけど、むかしディスクスペースが貴重だったころ、自分のファイルのうち、何ヶ月か触らなかったやつを圧縮してました。cronで。
Emacsで見るときは自動的に解凍してくれるので、特に不便はなかった。
でも、解凍ソフトだけは圧縮しないように注意しないとね。
2004年11月02日
22:43
びすけっと
テキストデータなんて,これから益々大したことはなくなるんで,どうせ考えるなら,動画とかの重要度が大事なのでは.
たとえば,私のディスクを圧迫しているエ○動画は,貴重なのもあるけど,大抵は4-5時間かければ,とってこれるやつばっかだし.筑波の新城さんは何でもファイルシステムにする人だけどwi○nyFSというのもありだな.
2004年11月02日
22:47
大富豪家2.0
エロ動画は自分的には貴重ですが再取得可能なら貴重とはいえないですねぇ。
泥酔時に書きとめたメモでも実は重要かもしれないから、やっぱりバックアップという意味では純個人的なデータを扱うべきなんでしょうか。
2004年11月02日
23:30
おぎの
重要かどうかって本人にもよくわかんなかったりするから、あんまり人間の判断に頼らないで、あとであのデータが欲しいと思ったときに気がついたら取ってあるじゃん、みたいなものを期待します。
2004年11月02日
23:46
大富豪家2.0
確かにその方が重要ですね。欲しいものが欲しいときに手にはいればいいわけで。バックアップはそのための手段ですな。失礼しました。
2004年11月02日
23:50
とょだ
すごく面白いんですが、あまり富豪的じゃないですね。
2004年11月03日
00:00
大富豪家2.0
富豪も情報の重要さは気にするんデスよ!
2004年11月03日
00:33
とょだ
ここで言っているのは、どうも重要さというより希少度のように見えますね。ウェブをひたすらかき集めながらMD5の出現数をカウントするというのが力技ですが、一番単純な実現方法かも。検索エンジンと違ってディスクが要らないぶん気楽ですね。
2004年11月03日
03:32
おぎの
これ面白いから実装より先に会社作るか未踏に応募するかしましょう。
2004年11月03日
07:16
大富豪家2.0
そういえば未踏はまだ続くのでしたね。
とよださんちは本当に富豪だからMD5方式を自力でできそうですね。。
2004年11月03日
07:46
大富豪家2.0
自分で録画したテレビ番組なんてのは希少じゃないのにMD5がユニークになってしまいますね。
2004年11月03日
12:24
とょだ
この手のだいたい似てる判定は、テキストなら分割してフィンガープリントをとることで何とかなるんですが、動画ではできるのでしょうか。
2004年11月03日
13:58
びすけっと
ファイルの依存関係をとるのがいいんじゃないでしょうか.
あるファイルや情報から,別のファイルができる.そのときに
人間のインタラクションが入るなら,生成されたファイルは重要.ファイルを生成するのに長時間かかったら重要.
インタラクションがないなら,入力の情報とファイルの生成の
方法を覚えておいて,いつでも消してもよい.
でどお?
2004年11月04日
11:27
大富豪家2.0
Makeに書けるものばっかりだったらこういう方法は有効そうですが、なにげなく存在するのに実は重要なファイルがあると困らないですかね。送ってもらった写真とか。
2004年11月04日
11:42
大富豪家2.0
由来不明のバイナリファイルとかを判別するため、いろんなファイルのMD5情報がわかると嬉しいのですが、CDDBみたいにデータベースはできないもんでしょうかね?
2004年11月04日
18:15
とょだ
ウィンドウズでプロセス名を検索するとその由来が分かるデータベースなんてのはあるみたいですね。これは何々会社のウィルス対策ソフトの常駐プロセスだ、とか出てきます。由来の説明をどれだけ楽に抽出できるかが鍵ですね。
2004年11月04日
19:02
びすけっと
由来がわかるものだけ消す.でかい一時ファイルを生成
するプログラムは由来プロトコルをつかってちゃんと宣言
する.
2004年11月04日
22:54
大富豪家2.0
MD5のデータベースから由来を調べるのは簡単そうですが、そぉでもないんですかね?
デジカメ写真の解像度を手作業で下げたら、手間も時間もある程度かかりますがあんまり大事ではないファイルができるでしょう。でもちょっと高度な画像処理をしたとすると大事なファイルになるかもしれません。なかなか自動判定は難しそうなので「うーむ」判定が必要なんでしょうか。作業終了時の溜息の重さで重要度を判定するとか。
2004年11月04日
23:31
びすけっと
じゃあ,ファイルを開いてから,由来のファイルが生成されるまでに行ったユーザ操作(クリックなど)で決める.時間もあるか.
2004年11月04日
23:56
大富豪家2.0
自分で作ったファイルは全部重要ということでかまわないです。どこからかダウンロードした謎のバイナリの重要度が気になるです。
2004年11月05日
00:16
とょだ
ウェブに転がってるファイルならURLからある程度分かりそうですが、売り物ソフトのバイナリはベンダが情報をくれないと。でも奇特なユーザが登録してくれるかも?
操作や時間をいくらかけてもゴミみたいなファイルができることは多いので、やはり主観で決まる重要度は難しいすね。ファイル中のコピペ割合とかも使えるかな?
2004年11月05日
00:34
大富豪家2.0
奇特じゃなく登録すると思いますよ。謎ファイルは本当に嫌なので。
ユーザが作ったゴミファイルはとりあえず「重要」でいいでしょう。save2disk.binなんてのはどうしよう。
2004年11月05日
00:42
びすけっと
ダウンロードしたファイルで重要なものなんてあるんで
しょうか?
僕は,前にダウンロードしたファイルが再利用できそう
だと思ったとしても,バージョンが新しいのが落ちてそう
だからもう一回ダウンロードします.
で,重要なのは,前のバイナリはどうやって探したかという
ことですよね.
たとえば,大きなダウンロードがあった前数分間のURLの
履歴はとっておいてもよさそう.でも,その情報と,いま
ディスクにあるバイナリとは関連付けなくてもいい.どうせ
使わないから.
2004年11月05日
00:56
大富豪家2.0
ほとんどの場合ダウンロードファイルは重要じゃないと思いますが、なんか消すのがためらわれたりしませんか? こうやれば再入手可能だとはっきりしてればいいんですが。
あらゆるファイルは13バイトに圧縮可能だという冗談があります。(IP番号とファイル位置とサイズがわかればいいから)
あらゆるファイルは最初からそういう管理をしておけばいいのかもしれませんな。内容ではなく作成方法や入手方法で分類する。
2004年11月05日
01:32
とょだ
怪しいあぷろだに投稿された怪しいファイルは取っとかないとすぐなくなってしまいますね。ウェブアーカイブにも限界があるし…
フリーソフトのセーブファイルなどはバージョンが変わると使えなくなったりするので、インストーラが捨てられなかったりします。あ、これも依存関係か。
2004年11月06日
02:47
会社としては…
たとえばですけど。
《データ保険屋》インターネット対応型。
「いざというとき、かんたんな手続きでデータを復旧されられる」
その対価として、バックアップ頻度や期間に応じた保険料を払う。
●形態 たとえば
クライアントにミニソフト(デーモン)を入れる
データはサーバーに保存
夜に一括でやるとか、スクリーンセーバー型とか。
復旧は、素のOSに「復旧ソフト」だけインストールしたら、
サーバーにある任意のジャーナル日付の状態に戻せる。
対個人はInternet経由の公開サーバーを使ってもらう。
対会社の場合、LAN内に専用バックアップサーバーを持ち込むサービスを取る。
−−−−−−−−−−−
どうでしょね。稼げますかね?
企業にちゃんとセールストークすれば、使いたい客はいるんじゃないかと思います。
2004年11月07日
22:37
営業マンが「はい、バックアップ設定にまいりましたー」とお客さんのところに行ったり、また「はい、いますぐ復旧させにまいりますー」と飛んでいったり。
企業相手に人間性あったかみもアピールできそうな予感。
2004年11月08日
06:22
みまぞう
ひまなときに、空き領域に(たぶん)大事なものをせっせとコピーするというソフトです。HDが二つあれば、別なディスクに持ち合うらしいです。
http://
web.te
glet.c
o.jp/k
anari2
/
2004年11月08日
16:53
とょだ
う、欲しいかもこれ。けっこう安いし。