2021年3月17日水曜日

GPT-3 ”Davinci”との会話1 ~錯視~




「普通のパソコンでトランスフォーマータイプの言語モデルはどれくらい頑張れるかhttps://eijikiwako.blogspot.com/2020/12/pt.html」という記事を書きましたが、実際はそんなもんじゃないです。正直半端ないです。訂正の上、本追加記事で補完しておきます。ただし、GPT-3の本質は自然な言語生成を極めているのであれば、これくらいは普通なのかも。ああ、恐ろしい。こんなことが普通を思える日が来るなんて。

以下、OpenAIのDavinciによる錯視の説明です。

=========================

Human: What is visual illusions?

AI: Ohh, would you like me to go through a number of the most common types of illusions that can occur within our visual field?

Human: Yes, please!

AI: Ok. Well it's important to remember that the visual field encompasses a pretty wide range of your senses, like sight itself obviously, but also things like how much you can feel what you touch or even hear. One of the perhaps most common illusions is that we tend to think of ourselves as watching the world from a single point. But actually, every time you move your head around you're effectively changing your perspective on the world. Our brains try to fill in the gaps with image processing, but it also means that, when you stare at a particular object for long enough, your brains fills in different images based on what it expects to see. The other big thing to remember about illusions is that in any visual image, the brain really mostly wants to find edges between contrasting colors or tones. The reason why this is important to notice is that after the mind's eye identifies an edge, it makes a prediction as to how the path of the edge goes based on the colors you can see on either side of the edge. When they don't match up, the brain often tries to correct the disparity by creating a new color in your mind. Of course, this leads to results that aren't actually featured in reality. You also know that colors can actually take their names from two different categories. The first is what we call colorimetry, which means the numbers associated with the wavelengths of a particular color. For example, a wavelength of 506 nanometers of green light will be either more or less green based on the numbers associated with it. The second category is what we call color naming. These are the names we give to each specific color. They're not always based on the wavelengths of the colors themselves. In fact most people didn't even realize that for centuries! The Shepard illusion is another good example of what I mean. It's a regular straight line moving left and right. However, your eyes naturally want to interpret it as a little hill and valley, even though the actual image doesn't change from frame to frame. It's an effective way to show how quickly our brain can fill in visual sensory gaps! Also, keep in mind that it is critical to the functioning of these illusions to have high sensory contrast. Any illusion with very low contrast or particularly muddled colors is probably not going to work very well. To see what I mean, try pointing the camera on your phone at a blank white wall! One last thing to note is that even humans don't see an illusion the same way! Almost everyone can see the line as it's meant to be seen, but the disparity between our individual perspectives can be pretty extreme. For example, some people see the top edge of the vertical line moving left all the way while others might see it keep going flat. This suggests that there are differences in perception based on the sensitive ability to see angles in space. Just another example of how the visual system is astonishingly flexible and unpredictable.

=========================

DeepLによる翻訳は以下

=========================

Human: 錯視って何?

AI: では、私たちの視界に現れる最も一般的な錯覚の種類を説明しましょうか。

Human: お願いします。

AI: わかりました。視野は、視覚だけでなく、触覚や聴覚など、かなり広い範囲をカバーしていることを覚えておきましょう。最も一般的な錯覚のひとつは、私たちが世界を一点から見ていると思いがちなことです。しかし、実際には、頭を動かすたびに、世界を見る視点を効果的に変えているのです。私たちの脳は、画像処理によってそのギャップを埋めようとしますが、特定の物体を長時間見つめていると、脳が期待するものに基づいて異なるイメージを埋めてしまうということでもあります。

錯視についてのもうひとつの重要なポイントは、どんな視覚イメージでも、脳は主に対照的な色やトーンの間のエッジを見つけようとするということです。なぜこのことが重要かというと、脳はエッジを認識した後、エッジの両側に見える色からエッジの経路を予測します。そして、それが一致しない場合には、脳内で新たな色を作り出して、そのズレを修正しようとすることが多いのです。もちろん、現実にはない結果が出てくることもあります。

また、色の名前には2つの異なるカテゴリーがあることをご存知でしょうか。1つ目は「測色法」と呼ばれるもので、特定の色の波長に関連する数値を意味します。例えば、波長506ナノメートルの緑色の光は、その数値によって緑色に見えたり見えなかったりします。2つ目のカテゴリーは、カラーネーミングと呼ばれるものです。これは、それぞれの特定の色につける名前です。色の波長を基準にしているわけではありません。実際、何世紀もの間、ほとんどの人はそのことに気づいていませんでした。

シェパード錯視もその良い例です。これは、左右に動く普通の直線です。しかし、実際の画像はフレームごとに変化していないのに、目は自然にそれを小さな丘や谷と解釈したくなるのです。これは、脳がいかに素早く視覚的なギャップを埋めるかを示す効果的な方法です。

また、これらの錯覚を機能させるためには、感覚的なコントラストが高いことが重要であることを覚えておいてください。コントラストが低かったり、色が混ざっていたりすると、うまく機能しないことがあります。例えば、真っ白な壁に携帯電話のカメラを向けてみてください。

最後に、人間でも同じようには見えないということです。ほとんどの人は、線を見たとおりに見ることができますが、それぞれの視点のズレはかなり大きいものがあります。例えば、縦線の上端がずっと左に移動しているように見える人もいれば、そのまま平らになっているように見える人もいます。これは、空間の角度を見るという繊細な能力に基づく知覚の違いを示唆しています。このように、視覚システムは驚くほど柔軟で予測不可能なものなのです。

=========================

量が質を凌駕して、なにかが起こっているようです。



2021年3月4日木曜日

AIとシン人

・・・・

ご指摘のように、AIの開発者(すくなくとも一部の私も含めた基礎科学の開発者)には、「未来的な可能性」としてAIを擬人化している態度があります。それらの開発者は、人間という不可思議なるものを正しく知りたいという強烈な欲求で動いております。AIを「擬人化」というより、むしろAIを「シン人化(真とか新とか重なった感じ)」しているような感覚です。

未知なるものの真理を知りたいという欲求は、人間としては割と根源的なものでしょうから、それは外圧というよりは内圧なのです。そして、過去から現在までのAIブームの先端を牽引してきた開発者は、このような連中ではないかと推察しています。私もその一人です。

・・・・

シン人は、AIの未来、あるいは未来までの道のりを想定しています。人を出来る限り忠実に再現した、あるいは再現しようとするAIのことです。どのような複雑なシステムであっても作ることができれば理解できるのではないかという期待があります。

つまり「真人」は、人の真実に近いという意味での「真」です。かと言って、それは人ではなく、あくまでもAIはAIです。その意味での「新人」であり、真の真ではない。

宗教関係者に怒られるかもしれませんが、新しい人というのは「神」なのかもしれません。すみません。こじつけです。

ということで、「真」と「新」は重なってはいますが、ずれています。そのずれているところが新しい拡がりを与えていて、「偽」と異なります。 


*とあるSLACKから一部改変して転載

データサイエンスに期待するもの

1953年、DNA二重らせん構造が発見された。この世紀の発見は、生物が有する喜怒哀楽といったいかにもアナログな感情の表象の裏に、デジタルデータの暗号が隠されていたことを意味するものでもあった。この瞬間こそが、生命科学におけるデータサイエンスの扉がカチャリと開いたその時と言えるのかもしれない。

デジタルデータの始まりはほんの些細な事柄だった。1980年初頭から10年間、京都大学の沼研究室は世界の分子神経生物学を圧倒的にリードしていた。当時のDNAシークエンスといえば、アイソトープの写真フィルムに写り込んだATGCの陽性バンドを人間の目でひとつひとつ解読する、という極めて原始的なものだったため、一度に読める量はせいぜい100〜300ベースくらいであった。これをかの沼研究室の教授室で確認作業を行っていたというのだからとんでもない話である。つまり、当時はまだまだデジタルデータが人間の感覚器の精度に委ねられていたのだ。

さらに30年経過した今現在の実験装置は、なんと1度の稼働で数十億から数百億ベースのDNA配列を解読する。さらにそこへ顕微鏡の技術が飛躍的に発展しデジタルカメラの高性能化が相まって、多次元かつ多量のイメージデータが研究者にサプライされることになった。その上論文も全てがデジタル化され、研究者個人が手にすることができる情報そのものが凄まじい勢いで増え続けているのである。加えてarXivに代表されるプレプリント式発表形態やSNS上での自由な討論の場など、研究者にとって彼らの最新情報を発信する手段はもはや論文や学会会場だけに留まらず、本人のアイディア次第でネットの海の中でどのようにでも自由に表現することができるのだ。これは何も生命科学領域に限ったことではない。社会のあらゆる分野で人間の処理能力を遥かに超えたデジタルデータが飛び交っている。

しかし人間が生きている中で自分の神経を最大限に尖らせても得られる情報はさほど多くない。生身の人間の情報処理能力にはやはり限界があるのだ。だが、玉石混交とはいえ、砂漠の砂粒ほどに溢れる膨大なデジタルデータの中には、何か重要な意味を持つものが隠れているかもしれない。この砂漠の中から自分の家の鍵を探すような試みを、私はデータサイエンスが実現することになると期待している。

世界には今まさにAI第三次ブームだ。ルールを教えることなく囲碁やビデオゲームで最高のパフォーマンスをするMuZero、不可能と思われていたタンパク質の立体構造を類推するAlpha Fold2、驚異的な精度を有する言語モデルGPT-3、言語からクリエイティブなイラストを描き出すDALL-Eなど、ここ数か月間だけでも素晴らしい成果が次々と世に発表されている。これらを可能にした技術開発の裏には、未知の境地へ至ろうとするハイレベルなAIエンジニア達が存在しているのは言うまでもない。彼らがいつか、人間の元を大きく飛び出し一人歩きし出したデジタルデータを再び人間がコントロールできるものとして引き戻し、やがて人間の閃きによって革新的な新発見をもたらすだろう。

今一度科学者は自分の五感を疑う時期に来ている。ロバート・フックは、顕微鏡を自作することで自分の感覚器(目)の機能拡張を図り、結果として「細胞」を発見するに至った。我々は今こそAIとデータサイエンスを駆使することで限界のある自分の感覚や思考の拡張を促し、新たな視点をもって研究に向き合うのだ。

自然科学研究機構を構築する天文学、核融合科学、分子科学、生理学、生物学。そして今後は他の大学共同利用機関法人をはじめ、より幅広い研究分野との間でさらなる連携を求められるようになるだろう。その時このデータサイエンスが、学問領域間に横たわる高い垣根を超えて互いを繋ぎ合わせ、さらなる新分野への発展を促すための起爆剤となることを、私は心の底から期待している。

ちひろ
え~、そっちいく??(ジブリ提供)


*機構内広報誌NINS Bulletinへの寄稿文を転載