由于项目的需要,我需要收集常见的英语短语,并将他们搞出释义,例句。并将他们放到数据库当中。 数据来源:[https://github.com/2ndLA/english-phrases/tree/main]
json字段示例
{
"phrase":"take after",
"translations":[
{
"tran":"照顾",
"sentence":"Mom always take after him",
"sCN":"妈妈总是照顾他"
},
{
"tran":"与..相像",
"sentence":"I take after my father",
"sCN":"我和爸爸很像"
}
]
}已经准备好了json格式的例句,问题是如何找到这些短语的释义与例句。 我在CC-CEDICT上找了,例句很多,实在是太多了,很多不常用甚至是错误的
所以我写了脚本来对这些8000多个短语来进行整合为一个txt文件,并最终用gemini-2.0-flash-lite来进行短语的翻译与例句的处理。 处理成一个json文件过后,把他放进sqlite数据库当中,设计字段如下
CREATE TABLE IF NOT EXISTS phrases (
phrase TEXT PRIMARY KEY NOT NULL, -- 英文短语
translations_json TEXT -- 包含 sCN, sentence, tran 的数组,JSON字符串化存储
);
CREATE UNIQUE INDEX IF NOT EXISTS idx_phrase_text ON phrases (phrase);