HukukBERT:首个全面的土耳其法律语言模型在法律完形填空测试达84.4%
Available in: 中文
研究人员推出了HukukBERT,土耳其法律领域最全面的语言模型,在18GB清理后的法律文本上使用先进的领域自适应预训练技术训练。
研究人员推出了HukukBERT,土耳其法律领域最全面的语言模型,在18GB清理后的法律文本上使用先进的领域自适应预训练技术训练。
法律AI的差距
虽然英语法律AI因Legal-BERT等模型蓬勃发展,但土耳其法律因以下原因落后:
- 领域数据稀缺
- 土耳其NLP资源有限
- 缺乏大量法律语料库
HukukBERT的方法
模型使用混合领域自适应预训练(DAPT)方法:
- 全词遮蔽 — 训练时遮蔽整个词
- Token跨度遮蔽 — 遮蔽token序列
- 词跨度遮蔽 — 遮蔽词序列
- 关键词遮蔽 — 针对特定法律术语
训练数据 — 18GB清理后的土耳其法律语料库
分词器 — 48K WordPiece词汇表
结果
| 基准 | 性能 |
|---|---|
| 法律完形填空 (Top-1准确率) | 84.40% (SOTA) |
| 法院判决分割 (文档通过率) | 92.8% (新SOTA) |
为什么重要
- 法律可及性 — 通过AI使土耳其法律更易获取
- 司法效率 — 自动化法院文件分析
- 非英语NLP — 证明法律AI可在英语之外的语言中工作
- 开源 — 模型已发布支持未来土耳其法律NLP研究
← Previous: Caution Over Curiosity: New Technique Stops AI Models from Gaming Reward SystemsNext: Trump Agrees to Suspend Iran Bombing for Two Weeks as Tehran Rejects Ceasefire Deal →
0