« 11.13 やっぱビミョーでしょ | ココ | 11.16 寿命が若干縮まった »

2008年11月13日

2万5000文字でも検索キーになるらしい  このエントリーを含むはてなブックマーク 

ゲノミクス研究から誕生、「ディープ・ウェブ」を検索するエンジン『DeepDyve』(ref. WIRED VISION)

ライフサイエンス関係の記事、と言っても間違いではないけどこれは生物学ではないな。塩基配列を検索する手法を一般の文字列に拡大適用したということらしい。

DeepDyveは、テキストの文字列全体をスキャンし、頻出する部分を探して、順位を付けて整理し、それが見つかった最も適切な記事を最終的に特定する。

ん? 英語で見てみる。

It will scan whole strings of text to find familiar segments, rank and order them, and finally locate the most relevant article in which it is found.

うーん…which it is found の"it"は何を指してる? 最も関連性のある記事、ということだろうな。てことは、DeepDyveは頻出する領域を見つけ、それらをランキングするために文章の文字列全体をスキャンして、それらの領域と最も関連性のある記事を最終的に指し示す、ということらしい? …おそらく本家の訳は間違ってないと思うけど、原文が怪しい気がする。

多分、どんな長い文章で検索しても、キーワードを20語ぐらいにしてキーワード同士で検索をするんだろうな。文章長けりゃ長いほど頻度が多い語の並びが出てくるだろうし…。極めてゲノミクス的。

「意味は関係ない」という事らしいけど、日本語でやったら文末ばっかりキーワードになったりしないんだろうか。英語やったらBe動詞とか、theとか(もちろんtheとかIは入力時点で省いたりしてるんやろうかね)。

By ただ at 22:03 カテゴリー ; 生命科学

« 11.13 やっぱビミョーでしょ | 11月の記事 | 11.16 寿命が若干縮まった »




トラックバック

このエントリーのトラックバックURL:
http://pinmarch.sakura.ne.jp/mt/mt-tb.cgi/1332