開放特許抄録集情報関係
整理番号:0093
文章更新量評価プログラム
翻訳業、出版業、新聞雑誌の編集者、教員など、文書の創作量、編集量や模倣量の評価業務等
発明者
- 三上喜貴
- 高橋正幸
- 中平勝子
発明の目的
文章の編集や、更新過程における知的作業量を定量的把握することを目的とします。
概要
複数の文字列データを比較し、文字列の編集の程度(類似の程度)を定量的に評価するアルゴリズムです。
具体的には、(1)新規創作の比率(新規創作率)、(2)「てにおは」や語句の修正・置換・削除等の編集作業が行われた箇所の数(編集点数)、(3)文章や語句の並べ替えの程度(文脈編集距離)、(4)置換された語句の置換前との類似度(語句類似度)という4つの尺度を総合して定量的な更新量を算出します。
特徴・効果
文章更新量の大局評価に関して、人間が編集後の文章を見た時にどのくらいの知的作業が行われたかを感じる感覚的評価に近い評価結果を提供することができます。
校閲業務などの文章編集作業の評価、剽窃などが疑われる文書間の類似度の定量的評価などへの応用を期待できます。また、改訂順序の判らなくなった文書の改訂順序の推定などにも応用できます。
さらには、辞書を一切使わない言語非依存のアルゴリズムであるため、どのような言語で書かれた文章にも適用できますので、プログラムのソースコードやデジタル化された楽譜など、自然言語以外の文字列に適用することもできます。
発明の詳細・図面等
【特許請求の範囲】
コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列の抽出数から1を減算して編集点数を求めるステップと、前記共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、各分割列を対比して一の分割列を他の分割列と一致させるために必要な前記共通部分文字列間の最小置換回数を計算して文脈編集距離を求めるステップと、前記テキストから当該共通部分文字列を取り除いた残余の文字列の合計長さが当該テキストの全長に対して占める割合を計算して新規創作率を求めるステップと、前記各テキストから当該共通部分文字列を取り除いた残余の文字列をそれぞれ集めて非共通部分文字列集合を作成するステップと、数式1で表される
【数1】
(Γ1、Γ2) は前記各非共通部分文字列集合から作成されるNグラム集合、|Γ1∩Γ2 |は Nグラム集合Γ1 及びΓ2 に共通して現れる共通要素数、|Γ3|はNグラム集合Γ3に含まれるNグラムの総数)
前記各非共通部分文字列集合間における前記閾値未満の長さによるNグラムの不一致 率である新規創作分新規度D0を求める新規度評価ステップとを実行させ、各ステップにより求められた編集点数と文脈編集距離と新規創作率と新規創作分新規度とを用い て、評価式:a・EP+b・CED+NCP・D0・L(EPは編集点数、CEDは文脈編集距離、NCPは新規創作率、D0は新規創作分新規度、Lは更新後のテキストの全長、a及 びbは任意の係数)により文章更新量を算出するステップを実行させるための文章更新量評価プログラム。
$00A0
【詳細】
比較するテキストを、ある閾値以上の長の共通部分文字列と非共通部分文字列とに分類します。そして、共通部分文字列の割合と出現パターンから元のテキストからの編集点数及び文脈編集距離を計算します。次いで、共通部分文字列集合に包含される要素数から編集点数を求め、共通部分文字列の出現順の変化から文脈編集距離を求めます。
次に、非共通部分文字列集合に包含される要素の合計長から新規創作率を求め、非共通部分文字列集合と非共通部分文字列集合に包含される要素間の非部分一致率から新規創作分新規度を求め、共通部分文字列集合と非共通部分文字列集合での計算結果を統合し、文章更新量を計算します。
$00A0
文章更新量評価プログラムの基本ブロック図
$00A0
ライセンス情報
- 特許登録番号
- 第4872079号
- 登録日
- H23年12月2日(2011年)
- 権利満了日
- R7年5月19日(2026年)
- 実施許諾
- 可
- 権利譲渡
- 否
事業化情報
- 実施実績
- 無し
- 許諾実績
- 無し
特許に関するご質問は、お問い合わせ票をご利用ください。
お問い合わせ票 ダウンロード