国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ
LINEは、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。
昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。
国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。
(以下略、続きはソースでご確認下さい)
ledge 2021 07 17 Sat
https://ledge.ai/ndl-clovaocr/
引用元: ・【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]
懲りないね~
全文献吸い上げ
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの?
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円(税込み)をいただきます。
そして日本人で文章寄りの人の思想に近い文書を次々に作り上げるような
AIを完成させてしまうと
_ノ乙(、ン、)_歴史を書き換えるニダw
悪の組織だわ。
国立国会図書館のオンラインで読めるものは全て問題をクリアしてる
ときどき公文書を出版する出版社があって、そうなると読めなくなる
権切れを出版してチョサクケンガーをやられるとスゲー不満
著作権なんかとっくに切れてるよ
これ韓国が全部自由に日本にアクセスせずに閲覧できるってことじゃねえか
戦前の良質な日本の「知」に触れて教化されると良い
もし読めるなら火病を起こすこと請け合い
>画像データは、すべてオンメモリで処理され、サーバには保存されません。テキストデータへ変換後、すぐにすべて削除されます。データが流出したり、分析されたりする心配はありません。
信じてるアホおるんか?
LINEに1円の特にもならんサービス信じてるアホおるんか?
LINEにやらせるとか頭おかしい
なんで LINE なんて敵国のスパイツール使うの?
LATEXに置き換えるのかね
ほんとーにやめてほしい
どうしても日韓一体化を推進したいのか…
技術が理由だよ
縦横斜めが混在する昔の文献は日本の技術では歯が立たないようだ
政権おともだち企業ではなく正確な情報保全を優先した国立国会図書館を評価したい
製紙法も韓国に教わったんだ、今さら恥じることでもあるまい
それとも人力で一字一字を修正するのかね
原書の画像でなければ閲覧者には改変や誤字があっても判らんじゃないか。
どんだけ役だっているか
どうでもいい人は、だまってヒッキーしていて下さい
>>44
こういう単語を多く含む文章や文献ってあったかなあ
というのが一瞬にして出て来るんだな
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか
原本は保存してくれるのかな?
官報の全文検索を無料でお願いします。
韓国のサーバーに保管されるのですね!
馬鹿官僚?
日本そのものが欲しいんだろうか
もう手中してるに近いが
しかも作業内容もてんで考える気もないので、
仕様書も書けないし、見積りすらできてない
ホントに、ホントにバイトよりできない
で中抜きしかできない。どころか中抜きすらできてない。
>>48
フランスの美術館はコピー取り寄せオーケー
ただしコピー代送料はもらいます
実費以上の料金取立ては禁止です
料金は事前に提示する必要があります
と宣言されてる
日本の国家図書館は多額のコピー代を請求するぞ
日本の誰が何を読むかのデータを集めたいんだろ
君が信頼してる日本はもう存在しない
あっと思ったら、会社が変わって
その前に担当者は一人もいなくなってる
ちょっと直そうにも、どうにもならない
サーバーってどこに置くの?
デジタル庁なんてズブズブ庁やん
それが主目的でしょう
普通の日本人が知らない教科書の内容やアニメにまで文句いうぐらいだから
バレないような仕掛けを深く静かに進行中
消えた年金問題みたいに消失するかも
国立国会図書館がソースとして拡散される。
アクセスできなくなるだろ
日本はやり出すのが遅すぎる
フランス政府が1996年くらいにはまずイメージで公開やり出したのにはびっくりしたよ
四半世紀すぎたいま確認したよ
(元がこのサイトかどうか記憶はないが)
https://www.culture.gouv.fr/en/Sites-thematiques/Musees/Pour-les-professionnels/Rendre-les-collections-accessibles-aux-publics/Assurer-la-diffusion-numerique-des-collections/Mise-en-ligne-des-collections/Ouverture-et-reutilisation-des-donnees-des-musees-de-France
商用利用もどんどんやってよだよ
オープン&リユース
例外はレアですとまでいってるよ
>>58
パリの美術館いったら 写真撮り放題
日本は写真禁止w もしくは1枚だけ許可とか
まあそれだろうな
この事業で一番金が掛かるのは作業費だろうし
検索に韓国と天安門が引っ掛からなくなり
実物処分、データも処分
船舶が外国人だらけで日本人じゃないから「おれ知らね」されたら日本終わると
軍事評論家が十数年前に心配してたけど現実になりましたな
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。
ヒッキーがどうしたって?
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら(笑)
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる
そしたらそもそも画像データをOCRにかけるだけなのか
作業はほとんど伴わないな
意味ワカンネ
だったらこの会社はチョンとその配下の日本人で構成されてるんだから技術がないってことだろ
こんな素人が思い付くレベルの仕事してるわけないでしょ。
恥を知りなさい。
実績値で見て、グーグル(グーグルは外資で応札できないので、グーグルと組む日本企業)とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。
取引停止しろよ
わざわざLINEを選ぶ理由が分からない・・
日本には技術がないんだよ
しかし、異常に速いな
資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円
NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業 1式
西日本電信電話株式会社
一般競争(総合評価)
月額:26,503,400円(税込)
NDLデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業 1式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円
NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守 1式
令和3年4月1日 富士通Japan株式会社
一般競争(総合評価)
248,820,000円
デジタル化資料のOCRテキスト化
LINE株式会社
一般競争(総合評価)
145,308,680円
こんな歴史改変できる重責を金額で決めたの?
富士通ゼロ円入札どころの話じゃないよ
馬鹿チョン半島に国立国会図書館の情報をリリース!
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか
>>1
ラインに改ざんされそうなこと
竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致
ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな
なぜLINE?
OCRでの変換に失敗して画像データや紙を処分し終わってたら
日本の知的資産が一度に大量に死ぬわけだが
たとえば、OCR校正で竹島を全部独島にするとか?w
あんなことがあったばかりなのに?
なんで他国にやってもらうのこれ
国賊ものの裏切り行為だろ
そして、チョン国から
これが証拠だ!って改ざんした図書館資料を出すという
電子化は検索し易くするだけでオリジナルはこれまで通り保管されるよ
>>110
そのあと
LINE「データセンタ飛ばしちゃいました(テヘペロ」
そうなるね
せめてNTTと協働事業にしないと、そうなるよね
今のお上の判断信じちゃダメ
LINEの不祥事に手をかしているかどちらかな
んだな、きっと。
普通に適当なwebサイトで公開とかでもいいじゃん
ああサイト作る能力なかったか
ここでもAIか
文書解析AI
LINEのメッセンジャー機能でもユーザーのトークを解析してるんだろうな
そこで培った知識かもしれん
やっぱLINEは無いわ
怖い
LINEなんていまだに使うなんて
マイナンバーなども比較的協力的だった俺だが
もう最近の規制緩和や民間どころか外資が平気でからんでる事業ばっかで嫌悪感が半端ない
意地でも役所に出向いて書類で全部やるわ
絶対にデータを安易にとらせることはしないと固く決めた
相手が日本企業だと癒着だのなんだのと叩く連中が多いからじゃね。
日本人の妬み嫉み文化が一番日本を壊してると思うわw
外資だと叩かないってwwwwww
工作員「『独島ハウリナラ領土ニダ』と書き換えておくニダw」
どこのを使うのかね?やっぱりグーグル系かね。
キックバック用会社でウィンウィンか
全国の文化財を地図で一覧 奈文研がウェブ公開スタート
https://www.asahi.com/articles/ASP7M6GS0P7MPTFC01F.html
>文研によると、収録対象は、文化庁や地方自治体、
>奈文研などが公開するデータのうち、位置情報が明確な文化財。
>古墳などの遺跡、史跡、神社仏閣などの建造物、絵画、仏像
>など広範囲にわたる。未指定の文化財も含まれている。
>このほか平城宮や平城京から出土した約3万件の木簡データも盛り込んだ。
> 所在地や種別、時代ごとに検索もできる
こんなことをしたら、日本全国の文化財を、ここに行けば盗める、
奪える、焼ける、ということを隣の国の人間に教えることになるだけだ。
馬鹿じゃないか? セキュリティとかそういうことをまるで考えて居ない。
だれか停めさせろよ。