海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。
そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。
A Field Guide to Japanese Mojibake
https://www.dampfkraft.com/mojibake-field-guide.html
マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。
文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。
(以下略、続きはソースでご確認下さい)
Gigazine 2021年11月02日 20時00分
https://gigazine.net/news/20211102-mojibake-field-guide-japanese/
引用元: ・【話題】海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される [すらいむ★]
イライラする
こんなに多数の文字を使う日本語って、国際的には
一寸変では?
川端康成がそれが日本語の表現を支えると言っていたが
ノーベル文学賞はローマ字しかない、英米の方が圧倒的に多い。
そろそろ改革する天皇が現れないかな、
文字覚えというムダがなくなったら学問が進歩すると思う。
文字が少なくなれば、覚えなきゃいけない単語の数が増えるだけだろ
因果関係と相関関係は別。日本語「だから」ノーベル賞が少ないわけではない。
そして「ちょっと」を「一寸」と書くあなたも日本語の多様性を受け入れている。
>>6
天皇になんかそんな難しいことできるわけがない
今の日本語の体系をいったん完全にぶっ壊さないと。
できるのは政界の「壊し屋」小沢一郎(東北比例復活)と
NHKをぶっ壊そうとしてる立花氏しかいないね。
アホか。小沢なんて無学だし立花はさらに無学
どうしてできると思うのかアホ丸出し
天皇には背後に膨大なブレーンが控えてるから号令かければできる
憲法が縛りをかけてるから現実には表立ってはできないがな
おまえは本当に馬鹿だなあ。
アルファベットは文字でも綴りが膨大にあるだろ?
それは絶対にやってはいけないしやらない
韓国人はバカで歴史が無いから漢字を廃止したが漢字廃止の弊害に悩まされて最近復活させた
おまえも韓国人同様バカだからデメリットに全く思いが及ばないわけだw
情けないやつw
まあそのことは文字化けとは関係無いけどね
微妙にニュアンスが違うような
その違いを感じ取れる貴方は
日本語上級者です。
>>7
確かに違う
小説などでは特に、作風に関わってくると思う
発音する登場人物の人格やタイプも表現できる
>>7
肢体というと、艶かしいイメージ
この艶って字は中々にエロいが、ゲシュタルト崩壊すると全くエロくない
って感覚、外国人にはわからんだろうね
単なる変換の癖に依存するだけで多様性の問題とは無関係
>>12
>ちょっと先は闇、とは言わんやろ
言わない。でも
>一寸変では?
は「ちょっと」と読む。少なくとも読める。
>単なる変換の癖に依存するだけで
だからその癖が存在する時点で。
メーラーのサンダーバードが、先日のアップデート後文字化けするようになったなぁ…。
文字コードの指定ができなくなってて、アドオンいれないと駄目とかになってた。
監視装置からの自動メールで、文字コード指定をcontent-typeにしていない古いタイプだったのが原因なので、
まぁ古いししかたないんだろうけど、ないがしろにされてるな、と思ったもんです。
>文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと
いや、そこはみんな知ってると思う
>>17
日本人ならね…。
欧米人に理解させるのは大変よ。概念が無いんだもの。
といっても実は欧州でも米国と異なる文字コード領域あったりするから、
詳しい人はなんとなく分かるかもしれない。
現代風に言うと「1ミリも」となるべきで、それこそ多様性というべきだが、
「ちょっと」が「1ミリ」と変換されない時点で多様性と呼べるような多様性は存在しない
>>19
>>現代風に言うと「1ミリも」となるべきで、それこそ多様性というべきだが、
すでにこの表現は登場している。
定着はしていないだけで。
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14136076384
ちょっとは一寸
それでいいじゃないの
>>19
そして本題からずれている。
>>19
なぁ、「ミリ」って何だと思う?
ミリグラム?ミリメートル?ミリリットル?それともミリシーベルト?
千分の一って意味しか無いんだよ、単位の接頭辞だから。
単位についてうるさく言うくせに、分かってないんじゃねーの。
とはいえ、「ちょっと」って意味で使うには向いてるってことではあるけどね。
日本語で言うなら「一毛もない」って言葉と一致する。毛は千分の一だからね。
「一毫もない」でも良いらしいけども。毛と毫は一緒。
>>19
さらに揚げ足
>そもそも「寸」は尺貫法の廃止で使うべきではない単位
計量の場で使ってはいけない。というだけのことだし、今は単位の話をしているわけではない。
>>19
「海底二万マイル」という本のタイトルを
「海底32186.88キロメートル」にしたら味気ないだろ…。
言葉と単位は別なんだよね。取引に使うことは禁じられてるが文学的表現が禁止されることはない。
ところで海底二万哩のマイルは海里だろうか。
だとしたら「海底37040キロメートル」が正しいタイトルになるが・・・
地球の裏側に出てしまうw
掘るなw
ちょっと斬新な解釈で驚いてる。。。
いいセンスだね。
言った記録がある。
いや、普通の話だろ
コードが違うんだから
馬鹿なのか?
すげーなw
卒論の研究テーマ。
糸偏四天王
UTF8のお陰でだいぶ文字化け問題は解決されたもんじゃよ
異体字とか微妙な問題は残ってるが25年前の文字化け地獄と比べたら天国じゃ
最近は良くなったけど。
ただ母音のaが色々変化するって言うか表記が難しい?
コーラン見ると母音についた点とかで区別するらしいけどあまりよく知らない。
アラビア文字は昔、少しかじったけどだいぶ忘れたな。
右から左に読むアルフベットと同じ。