User talk:Jlhwung

跳到导航 跳到搜索

关于此版块

Blahhmosh (讨论贡献)

《朝鮮王朝實錄》《中宗實錄》64卷,23年,11月24日 裏面就出現了這一個字。我實在無法破譯。您認爲這是什麽字?

Blahhmosh (讨论贡献)

上下段落:

“往返一月,雖甚匆遽,而禮儀周旋,情文曲盡,令人懷感。不【這個字】瀕行,過承垂念,以爲再見無由,徒勞夢想,蓋信然也”

回复“這是什麽字?”

《光海君日記·重抄本》與《光海君日記·正抄本》

2
Blahhmosh (讨论贡献)

我該如何對付這兩個版本?我該分別錄入,還是將兩個版本混合錄入與同一網頁?

Jlhwung (讨论贡献)

選一本做錄入底本,另一本可以出校記或者另外錄入。兩個版本混合的話,那你就製造了一個新的Blahhmosh編輯本了。

回复“《光海君日記·重抄本》與《光海君日記·正抄本》”

《昭和天皇實錄》與其版權問題。

1
Blahhmosh (讨论贡献)

近日,日本頒佈《昭和天皇實錄》,但是頒佈時間爲2014年。請問,既然頒佈者為政府機構,把他移到本站是否屬於版權侵害?

回复“《昭和天皇實錄》與其版權問題。”

如何快速發多張圖片到Wikimedia上?

1
Blahhmosh (讨论贡献)

如何快速發多張圖片到Wikimedia上?我有一大堆圖片需要發,但是好像Wikimedia只允許你一次發一張圖片,而不是一次發多張圖片。這該怎麽辦?

回复“如何快速發多張圖片到Wikimedia上?”
Blahhmosh (讨论贡献)

请问,维基文库能够容得下多少字?

用演算,我猜我将要制造的页面要容下1,962,665。请问,一个页面能够容得下这么多字吗?

Jlhwung (讨论贡献)
回复“维基文库页面容量为多少?”
Blahhmosh (讨论贡献)

我在讀《朝鮮王朝實錄》時遇到了這個字。這個字已經磨破地很了,不容易識別出來。連韓國人他們都不知道這是什麽字。但是我認爲這個字是“層”。你認爲呢?

出處:http://sillok.history.go.kr/id/wda_12807019_010, 查找"〈■畢〉"這一連串的字。這個字就是我所説的磨破字。按"원본 보기"。這個字的出處在第四頁,最底下。

在維基文庫裏面為:朝鮮王朝實錄/世宗實錄/二十八年, 查找"曲階高方東西墻底,其間"這一連串的字

Mysterious Character appearing in Sejong Sillok
Jlhwung (讨论贡献)

可能是「層」,但如果存疑,註明闕字即可,除非有別本可以補正。

回复“這個字是什麽字?”
银色雪莉 (讨论贡献)

您好,此前我上载了一个新见字形⿰丠尼(是“屔”的异体)到魏安的讨论页,他在编辑摘要中的回复意见是“simply transcribe as 屔”就好了。我对这个意见有点不解(当然可能是我对Unicode编码不了解的缘故)但语言界限恐怕不能清楚表达,故此想请教您:由于以“丠”和“丘”为构件的汉字(至少以段玉裁《说文解字注》中“从丠”或“丠声”为例),包括邱、虚都有另行编码的“𨛆”和“𧆳”,那么为什么不考虑把⿰丠尼也另行编码呢?(我猜测也许是因为证据不足的原因,包括目前我也仅见章氏在《新方言/釋詞第一》中有这样的写法,不知是否这样的原因?)尚请指教,感谢!

Jlhwung (讨论贡献)

對的。如果能提交更多的證據,例如學者論文討論「」和「屔」;或是其他人的著作中也使用了「」。編碼的理據會更充分一些。說文雖然提到了「从丠从泥省」,但其字頭不能作爲漢字編碼證據,因爲不是使用楷書的形式(見IRG PnP 2.1.1.b)。

包含某構件的漢字已經編碼不代表新字仍然會獲得獨立碼位。IRG近年對異體字漸趨嚴格,例如:推出了UCV爲異體字統合提供依據。注意:統合並不意味着放棄在數字化層面區分某兩個字形,依然可以通過IVD的形式讓這些字形可以被表達,只是IVD似乎沒有得到很多支持,至少中國韓國臺灣都沒有註冊過IVD.

另:可以直接在魏安討論頁中回覆中文,他當然能讀懂。

银色雪莉 (讨论贡献)

感谢。我此前也以为自己有忽略,所以查阅过UCV表,却又没见“丠”和“丘”的统合,所以才来相问。

照阁下所言,其实如果IVD得到广泛支持和使用,那么对于像是用非纸化形式重排古籍来说应该是要更加友好或者说工作能更加精细的——尤其是像这类考究文字语言的小学类著作,不然的话,还不如影印本呢233

PS:我也惊讶于我怎么下意识必须用英语了,大概是刻板印象?也可能是一瞬间对于使用外语的疲倦感哈哈,不过还是非常感谢阁下提醒。

回复“请教字形编码问题”

《朝鮮王朝實錄》的生僻字問題

4
Blahhmosh (讨论贡献)

您好。這次我要完成《朝鮮王朝實錄》的搬運。但是我需要幫助:《朝鮮王朝實錄》裏面有一些連很罕見到Unicode都沒有的生字詞。我需要您幫我查看《太宗》四年6月11日開始,至《太宗》11年10月28日爲止,其間有沒有我所説的生僻字。生僻字的意思是:如果您在google chrome裏面,到所説的日期,比如“http://sillok.history.go.kr/id/kca_10406010_001”

,按CTRL+U,然後用CTRL+F,輸入"newchar",發現CTRL+U裏面"newchar"有出現過,那麽這個頁面有生僻字。請您到我的討論裏面,發給我這些鏈接。謝謝您。辛苦您了。~~~~

Jlhwung (讨论贡献)

抱歉我精力有限,恐怕沒有時間逐個查閱朝鮮實錄缺字。

建議您使用程序抓取該數據庫html正文(而非簡單複製粘貼,這樣會漏掉圖片字),然後使用正則表達式匹配img.newchar這種HTML元素,所有這些元素的 src 都形如/images/newchar_images/KC09/KC09912_16.GIF,其中KC09912是生僻字的編號,你可以到https://zi.tools/api/ma/ma/kc.json下載字統網維護的從KC編號到IDS/Unicode漢字的映射,使用映射信息把img.newchar批量替換成{{?|IDS}}或者已編碼漢字。

Blahhmosh (讨论贡献)

網絡抓取應該以多快的速度抓取?我以15秒一抓的速度進行,但是還是被禁了。

Jlhwung (讨论贡献)

可以嘗試減少併發量,增加人類使用瀏覽器時會發出的HTTP頭。如果還是會被禁,那就慢慢導入:文本質量比導入速度重要。

回复“《朝鮮王朝實錄》的生僻字問題”

《甲骨文合集》與《金文合集》該不該搬運到維基文庫上?

2
Blahhmosh (讨论贡献)

雖然這些書都是在版權限期内,但是甲骨文和金文都可明顯不在版權限期内,所以該不該搬運到維基文庫裏面去呢?

Jlhwung (讨论贡献)

釋文肯定有版權,甲骨的影像應該是公有領域,但甲骨的摹本因爲是現代再創作,應該有版權。

回复“《甲骨文合集》與《金文合集》該不該搬運到維基文庫上?”

《朝鮮王朝實錄·純宗實錄附錄》中的諺文問題

2
Blahhmosh (讨论贡献)

我正在搬運《朝鮮王朝實錄》。我發現《純宗實錄附錄》有一些韓文。請問,我該不該將《純宗實錄附錄》的韓文包括進中文維基文庫裏面去?

Jlhwung (讨论贡献)

如果諺文篇幅很長,建議收錄到多語種文庫。如果只是行間散見,應收入中文文庫。文庫已經有文獻包含滿文的例子,例如京塵雜錄/4

回复“《朝鮮王朝實錄·純宗實錄附錄》中的諺文問題”