EfTidyは日本語を通さないのかも |
|
| 昨日紹介したEfTidyを早速使ってみました。しかしHTMLの日本語部分が何故か実体参照に置換されてしまいました。エンコード設定のオプションなどもきちんと指定してみたのですが、うまく行きませんでした。本来のHTML Tidyは日本語を通す筈なのに。おかしい。 EfTidyが原因なのか、その下位にあるTidy Libraryが原因なのかがわからなかったので、Tidy LibraryのDLLをDeclare文で直接呼び出すサンプル(http://users.rcn.com/creitzel/tidy/TestTidy.NET.vb)を使って調べてみたのですが、これを利用しても日本語の部分が実体参照に置換されてしまいました。 ライブラリのヘッダファイルを見ると、どうもアジア語圏用のディレクティブがあるようです。実際にライブラリをビルドしたわけではないのでよくわかりませんが、もしかすると、私がダウンロードしてきたライブラリはその設定ディレクティブがオフになった状態でコンパイルされたものなのかも知れません(欧米の人が配布していたものなので)。 そうなると自分の手でライブラリをビルドすればいいのかもしれませんが、それこそわざわざそこまでやって確認するのが無駄に思えてきました。 Japan_internet_com デベロッパー - Microsoft C#での HTML 構文解析という記事を見つけたので、これを参考にして自分でHTMLパーサを作ったほうが良さそうです。 この記事にあるものは、内部がツリー構造化されているような厳密なHTMLパーサとは違って、上から下まで適当に読み下して解析する単純なものです。色々テストしているうちに気付いたのですが、特定のサイトの特定部分のみを切り出すような目的ならば、ツリー構造化されているものよりも、このサンプルにあるような単純なやり方の方が楽なのではないかと思います。 まあいずれにせよ、ブラウザを作るわけじゃないのだから、こんなところに専念するわけにもいかないので、必要になったらプログラムを組むという形で対処しようと思います。 ┏━┳━━┳━┓ ┣ヽ  ̄ / (・ω・)┫ ┣━━╋━╋━┫ ┣、ハ,,、 \(. \ ノ┫ズコープラモ ┗┻━━┻━┻┛
完成図 ∧∧ ヽ(・ω・)/ ズコー \(.\ ノ 、ハ,,、  ̄  ̄ ̄
| |
|
7月19日(水) | トラックバック(0) | コメント(0) | 日記 | 管理
|